Prévia do material em texto
Exercícios da disciplina MAP5747
Otimização não linear
Pedro Faria
18 de janeiro de 2016
Sumário
1 Exercícios do livro Elementos de Programação Não-linear 2
1.1 Capítulo 1 - Revisão de Álgebra Linear e Cálculo . . . . . . . 2
1.2 Capítulo 2 - Condições de otimalidade para minimização sem
restrições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Capítulo 3 - Convexidade . . . . . . . . . . . . . . . . . . . . . 39
1.4 Capítulo 4 - Modelo de algoritmo com buscas direcionais . . . 42
1.5 Capítulo 5 - Ordem de convergência . . . . . . . . . . . . . . . 57
1.6 Capítulo 6 - Métodos clássicos de descida . . . . . . . . . . . . 58
1.7 Capítulo 7 - Minimização com restrições lineares de igualdade 97
1.8 Capítulo 8 - Algoritmos para restrições lineares de igualdade . 116
1.9 Capítulo 9 - Minimização com restrições lineares de desigualdade139
1.10 Capítulo 10 - Método de restrições ativas . . . . . . . . . . . . 162
1.11 Capítulo 11 - Minimização com restrições lineares de igualdade
e desigualdade . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
1.12 Capítulo 12 - Minimização com restrições não-lineares de igual-
dade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
1.13 Capítulo 13 - Minimização com restrições não-lineares de igual-
dade e desigualdade . . . . . . . . . . . . . . . . . . . . . . . . 201
1.14 Capítulo 14 - Algoritmos para restrições não-lineares . . . . . 230
2 Exercícios dados em aula 260
2.1 Convexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
1
1 Exercícios do livro Elementos de Programa-
ção Não-linear
1.1 Capítulo 1 - Revisão de Álgebra Linear e Cálculo
1.1 Sejam A ∈ Rn×n e x ∈ Rn. Quais das seguintes afirmações são verda-
deiras? Prove ou dê um contraexemplo:
(a) Existe x∗ 6= 0 tal que Ax∗ = 0 se det(A) = 0.
A afirmação é verdadeira. Suponhamos que det(A) = 0. Logo,
A é equivalente a uma matriz A′ (A ∼ A′) que possui uma linha
de zeros (A pode ser transformada em A′ por uma sequência de
operações elementares sobre as linhas de A). Como operações ele-
mentares sobre um sistema não alteram seu conjunto de soluções,
temos que A′x = 0. Como uma das linhas de A′ é nula, então o
sistema A′x = 0 (cujas soluções são as mesmas de Ax = 0) tem
menos equações que variáveis, o que significa que existe pelo me-
nos uma variável xi livre (isto é, que pode assumir qualquer valor
real - em particular, um valor não nulo). Logo, existe x∗ 6= 0 tal
que A′x∗ = 0 e, portanto, Ax∗ = 0.
(b) Existe x∗ 6= 0 tal que Ax∗ = 0 somente se det(A) = 0.
A afirmação é verdadeira; provemos a contrapositiva. Suponha-
mos det(A) 6= 0. Logo, A é inversível e de Ax∗ = 0 segue
A−1A︸ ︷︷ ︸
I
x∗ = A−10 e portanto x∗ = 0.
(c) Existe x∗ 6= 0 tal que Ax∗ = 0 se e somente se det(A) = 0.
A afirmação é verdadeira, pois os itens (a) e (b) são verdadeiros
(e o item (c) é apenas a conjunção das afirmações de (a) e (b)).
1.2 Seja A ∈ Rm×n, m ≥ n e posto(A)= n. Prove que AtA é não singular.
Pelo exercício 1.1, temos que AtA é não singular se e somente x = 0
for a única solução de AtAx = 0.Temos que
AtAx = 0
xtAtAx = xt0
(Ax)tAx = 0
‖Ax‖22 = 0
2
Como ‖x‖2 = 0 ⇐⇒ x = 0, segue que Ax = 0. Como Ax pode ser
vista como uma combinação linear das n colunas de A em que cada
coeficiente é um componente de x, segue que x = 0 (pois as n colunas
de A são linearmente independentes, já que m ≥ n e posto(A)= n).
Logo, AtA é não singular.
1.3 Seja A ∈ Rm×n, m ≤ n e posto(A)= k. Definimos os subespaços
Nu(A) = {x ∈ Rn | Ax = 0} e Im(A) = {y ∈ Rm | ∃x ∈ Rn | y =
Ax}. Prove que:
(a) Nu(A) ⊥ Im(At).
Sejam u ∈ Nu(A), y ∈ Im(At). Como y ∈ Im(At),∃x ∈ Rm tal
que y = Atx. Temos que uty = utAtx = (Au)tx =︸︷︷︸
u∈Nu(a)
0tx = 0.
Logo, u e y são ortogonais e, portanto, Nu(A) ⊥ Im(At).
(b) dim(Nu(A)) = n− k.
Seja R uma matriz escalonada tal que R ∼ A (R pode ser obtida a
partir de A via operações elementares sobre as linhas de A). Como
operações elementares sobre as linhas de A não alteram seu espaço
linha, temos que o posto de A (dimensão do espaço linha de A) é
igual ao número de linhas não nulas de R (logo, R tem k linhas
não nulas). Ainda, como dim(Nu(A)) é o número de variáveis
livres de Ax = 0 (que, por sua vez, é o número de linhas nulas
de R, pois operações elementares também não alteram o espaço
nulo Nu(A)), temos que dim(Nu(A)) = n − k (número de total
de variáveis menos o número de linhas não nulas de R).
(c) Rn = Nu(A)⊕ Im(At).
Primeiramente, seja v ∈ Nu(A) ∩ Im(At). Provemos que v = 0
(i.e., provemos que a soma Nu(A) + Im(At) é direta). Pelo item
(a), temos que vtv = 0 = ‖v‖22. Como ‖v‖2 = 0 ⇐⇒ v = 0,
segue que v = 0.
O espaço Im(At) é gerado pelas colunas de At, que são as linhas
de A. Logo, dim(Im(At)) = posto(A) = k.
Como Nu(A)∩Im(At) = {0}, segue que dim(Nu(A)+Im(At)) =
dim(Nu(A))+dim(Im(At)) = (n−k)+k = n = dim(Rn). Ainda,
como Nu(A), Im(At) ∈ Rn, então o espaço Nu(A) + Im(At) está
contido em Rn. Logo, Rn = Nu(A)⊕ Im(At).
1.4 Considere Ax = b com A ∈ R(n−1)×n, b ∈ Rn−1 e x ∈ Rn, correspon-
dendo a n− 1 hiperplanos �linearmente independentes�. A intersecção
3
desses hiperplanos determina uma reta em Rn. Podemos representar
essa reta na forma y = x + λd, com λ ∈ R e x, d ∈ Rn. Discuta como
escolher x e d.
Como o número de equações do sistema Ax = b é n − 1 e o número
de incógnitas é n, então existe uma variável de x que é livre (e que
pode assumir qualquer valore real). Fixando então um valor para essa
variável livre (pode ser descoberta via escalonamento do sistema), po-
demos resolver o sistema (n− 1)× (n− 1) restante para encontrar uma
solução x0. Fazendo o mesmo procedimento para um outro valor da
variável livre, podemos encontrar uma solução x1. Esses dois pontos
já são suficientes para encontrar a reta desejada, que é definida por
y = x0 + λ(x1 − x0) (isto é escolhemos x = x0 e d = x1 − x0).
1.5 Encontre os autovalores e autovetores da matriz A = uut, onde u ∈ Rn.
Como cada linha de A = uut é um múltiplo de ut, segue que posto(A)
= 1. Logo (pelo exercício 1.3)b)), dim(Nu(A)) = n−posto(A) = n−1.
Como Nu(A) = {x ∈ Rn | Ax = 0}, então a multiplicidade de λ = 0
como autovalor (i.e., a multiplicidade de λ = 0 como raiz do polinômio
característico p(λ) = det(A−λI)) é n−1 (cujos autovetores associados
v são as soluções não nulas de Av = 0 ).
Como o traço de uma matriz é soma de seus autovalores, temos que o
último autovalor restante é λ = tr(A) = tr(uut) = utu. Resolvendo a
equação
Av = λv
u( utv︸︷︷︸
∈R
) = ( utu︸︷︷︸
∈R
)v
utvu = utuv
, temos que v = u. Logo, u é autovetor com autovalor associado utu.
1.6 Prove que os autovetores de uma matriz associados a autovalores dis-
tintos são linearmente independentes e que se a matriz é simétrica eles
são ortogonais.
Sejam λ1, . . . , λr r autovalores distintos de uma matriz A, associados
respectivamente aos autovetores v1, . . . , vr (i.e., Avk = λkvk para k =
1, . . . , r). A prova segue por indução em r.
4
Caso base: para r = 1, como v1 6= 0 (por ser autovetor) temos que
c1v1 = 0 ⇒ c1 = 0. Logo, {v1} é um conjunto de autovetores linear-
mente independentes.
Hipótese de indução: {v1, . . . , vr−1} é um conjunto de autovetores line-
armente independentes.
Passo de indução: seja r ≥ 2. Consideremos a combinação linear
c1v1 + . . . + crvr = 0. Multiplicando os dois lados da combinação por
A à esquerda, como Avi = λivi obtemos:
c1λ1v1 + . . .+ crλrvr = 0
Multiplicando os dois lados da combinação por λr, obtemos:
c1λrv1 + . . .+ crλrvr = 0
Subtraindo a última equação da antepenúltima, obtemos:
c1(λ1 − λr)v1 + . . .+ cr−1(λr−1 − λr)vr−1 = 0
Pela hipótese de indução, como {v1, . . . , vr−1} são linearmente indepen-
dentes então ci(λi − λr) = 0 para i = 1, . . . , r − 1. Como (λi − λr) 6= 0
(autovalores são diferentes), segue c1 = . . . =cr−1 = 0. Logo, da pri-
meira combinação linear temos então que crvr = 0 e, como vr 6= 0
(por ser autovetor), temos cr = 0. Logo, {v1, . . . , vr} é um conjunto
linearmente independente.
Suponhamos agora que A seja simétrica. Temos que:
vt1(Av2) = v
t
1(λ2v2) = λ2(v
t
1v2)
Ainda,
(vt1A)v2 = (v
t
1A
t)v2 = (Av1)
tv2 = (λ1v1)
tv2 = λ1(v
t
1v2)
Das duas últimas equações, segue que:
λ1(v
t
1v2) = λ2(v
t
1v2)
(λ1 − λ2)(vt1v2) = 0
(vt1v2) = 0 pois λ1 6= λ2
5
Logo, os autovetores são ortogonais.
1.7 Prove que os autovalores de uma matriz simétrica são positivos se e
somente se a matriz é definida positiva.
⇒ Seja A uma matriz simétrica com autovalores positivos λ1, . . . , λn.
Logo A admite a decomposição A = QΛQt, onde Q é uma matriz
ortogonal (i.e.,QQt = I) e Λ é uma matriz diagonal com os autovalores
de A. Definamos
√
Λ a matriz diagonal que contém as raízes quadradas
dos autovalores de A (tal que Λ =
√
Λ
√
Λ )
Seja x 6= 0. Temos então que xtAx = xtQΛQtx = (√ΛQtx)t(√ΛQtx) =∥∥∥√ΛQtx∥∥∥2
2
. Como x 6= 0 e √ΛQt é não singular (sua inversa é Q√Λ−1,
onde
√
Λ
−1
é a matriz diagonal com os inversos das raízes quadradas
dos autovalores de A), temos que
√
ΛQtx 6= 0. Ainda, como ‖.‖2 é uma
norma temos então que xtAx =
∥∥∥√ΛQtx∥∥∥2
2
> 0. Logo, A é definida
positiva.
⇐ Seja A uma matriz simétrica definida positiva. Seja v 6= 0 um
autovetor de A, com autovalor associado λ. Temos que:
Av = λv
vtAv = vtλv (multiplicando à esquerda por vt)
vtAv︸︷︷︸
>0
= vtv︸︷︷︸
>0
λ
Como vtAv > 0 (pois v 6= 0 e A é positiva definida) e vtv > 0 (pois
v 6= 0 e vtv = ‖v‖22), segue que λ > 0. Logo, todos os autovalores de A
são positivos.
1.8 Prove que se λ é um autovalor de uma matriz A não-singular, então
1/λ é um autovalor de A−1.
Seja λ um autovalor de uma matriz A não-singular, com autovetor
associado v. Temos que:
6
Av = λv
v = A−1λv (multiplicando à esquerda por A−1)
v = (A−1v)λ
v
1
λ
= A−1v
Logo, 1/λ é um autovalor de A−1, com autovetor associado v.
1.9 Prove que A ∈ Rn×n é singular se e somente se 0 é um autovalor.
⇒ Seja A ∈ Rn×n singular. Logo, existe v 6= 0 tal que Av = 0 = 0v.
Logo, λ = 0 é um autovalor de A, com autovetor associado v.
⇐ Seja 0 um autovalor de A, com autovetor associado v. Logo, Av = 0
. Como v 6= 0 (pois v é autovetor de A), Nu(A) é não trivial. Logo, A
é singular.
1.10 Suponha que limk→∞ xk = α. Prove que se α > β, então existe M > 0
tal que para qualquer k ≥M se verifica que xk > β.
Como limk→∞ xk = α, então para todo � > 0 existe um natural k0 tal
que k > k0 ⇒ α− � < xk < α + �. Para k ≥ k0, temos então que
α− � < xk < α + �
β − � < α− � < xk < α + � (pois α > β)
β < α < xk + �
Como a última inequação vale para todo � > 0, temos então que, esco-
lhendo M = k0 + 1, para k ≥M temos xk ≥ α > β ⇒ xk > β.
1.11 Prove que se limk→∞ xk = α e para todo k ≥ 0, xk ≥ β então α ≥ β.
Trocando o sinal de ≥ por >, a afirmação continua válida? Prove ou
dê um contraexemplo.
Por contradição, suponhamos α < β. Como limk→∞ xk = α, então para
todo � > 0 existe um natural k0 tal que k > k0 ⇒ α− � < xk < α + �.
Para k ≥ k0, temos então que
7
α− � < xk < α + �
xk < α + � < β + � (pois α < β)
xk − � < α < β
Como a última inequação vale para todo � > 0, temos então que, para
k > k0 temos x
k ≤ α < β ⇒ xk < β. Isso é uma contradição com o
fato de que, para todo k ≥ 0, xk ≥ β. Logo, α ≥ β.
Trocando agora o sinal de≥ por>, tentemos provar que, se limk→∞ xk =
α e para todo k > 0, xk > β então α > β. Novamente por contradição,
suponhamos α ≤ β. Como limk→∞ xk = α, então para todo � > 0
existe um natural k0 tal que k > k0 ⇒ α−� < xk < α+�. Para k ≥ k0,
temos então que
α− � < xk < α + �
xk < α + � ≤ β + � (pois α ≤ β)
xk − � < α ≤ β
Como a última inequação vale para todo � > 0, temos então que, para
k > k0 temos x
k ≤ α ≤ β ⇒ xk ≤ β. Isso é uma contradição com o
fato de que, para todo k ≥ 0, xk > β. Logo, α > β (e, portanto, a
afirmação continua válida se trocarmos ≥ por >).
1.12 Se {xk} é uma sequência convergente, então essa sequência é limitada?
A recíproca é verdadeira?
Sim (para a primeira pergunta). Seja xk uma sequência convergente,
com limk→∞ xk = L. Logo, para todo � > 0 existe um natural k0 tal
que k > k0 ⇒ L− � < xk < L+ �. Em particular, para � = 1 e k > k0
temos que:
∣∣xk − L∣∣ < 1∣∣xk∣∣− |L| < ∣∣xk − L∣∣ < 1 (pela desig. triang |u| − |v| ≤ |u− v|)∣∣xk∣∣ < 1 + |L|
8
Seja M = max{|x1| , . . . , ∣∣xk0∣∣ , 1 + |L|}. Da definição de M e da ine-
quação anterior segue que
∣∣xk∣∣ ≤ M para todo k natural, e portanto
{xk} é limitada.
A recíproca não é verdadeira, pois para xk = (−1)k, temos que {xk}
é limitada (pois
∣∣xk∣∣ ≤ 1 para todo k natural) mas não é convergente
(pois para todo k ≥ 1 natural temos ∣∣xk − xk−1∣∣ = 2).
1.13 É possível ter uma sequência convergente tal que x2k > 0 e x2k+1 < 0
para todo k ?
Sim. Considerando a sequência xk = (−1)k 1
k
, temos que x2k = 1
k
> 0 e
x2k+1 = − 1
k
< 0 para todo k > 0 e limk→∞ xk = 0 (para k ∈ Z, basta
considerar a sequência xk = (−1)|k| 1|k|).
1.14 Prove que as funções abaixo são normas:
(a) ‖.‖∞ : Rn → R, ‖x‖∞ = max1≤i≤n |xi| .
Sejam x, y ∈ Rn e α ∈ R.
Temos que :
‖x‖∞ = 0 ⇐⇒
max
1≤i≤n
|xi| = 0 ⇐⇒
|xi| ≤ 0 ∀i ⇐⇒︸ ︷︷ ︸
|xi|≥0
xi = 0 ∀i ⇐⇒
x = 0
Ainda, ‖αx‖∞ = max1≤i≤n |αxi| = |α|max1≤i≤n |xi| = |α| ‖x‖∞.
Por fim,
‖x+ z‖∞ = max1≤i≤n |xi + zi|
≤ max
1≤i≤n
|xi|+ max
1≤i≤n
|zi| (desig. triang)
= ‖x‖∞ + ‖z‖∞
Logo, ‖.‖∞ é uma norma.
9
(b) ‖.‖1 : C(a, b)→ R, ‖f‖1 =
∫ b
a
|f(x)| dx. (C(a, b) é o conjunto das
funções contínuas [a, b]→ R) .
Sejam f, g ∈ C(a, b) e α ∈ R.
Temos que :
‖f‖1 = 0 ⇐⇒∫ b
a
|f(x)| dx = 0 ⇐⇒
|f | = 0 ⇐⇒ (pois |f(x)| ≥ 0)
f = 0 (pois |.| é uma norma em R)
Ainda, ‖αf‖1 =
∫ b
a
|αf(x)| dx = |α| ∫ b
a
|f(x)| dx = |α| ‖f‖1.
Por fim,
‖f + g‖1 =
∫ b
a
|f(x) + g(x)| dx
≤
∫ b
a
|f(x)| dx+
∫ b
a
|g(x)| dx (desig. triang.)
= ‖f‖1 + ‖g‖1
Logo, ‖.‖1 é uma norma.
1.15 Considere as funções f : Rm → Rp e g : Rn → Rm com jacobianos
Jf ∈ Rp×m e Jg ∈ Rm×n , respectivamente. Encontre o jacobiano da
função composta h : Rn → Rp, dada por h(x) = f(g(x)).
Sejam Jfij e Jgij os elementos das posições i, j dos jacobianos de f e g,
respectivamente. Pela definição de jacobiano de h e definindo y = g(x),
temos que:
10
Jhij(x) =
∂hi
∂xj
(x)
=
∂fi
∂xj
(g(x))
=
m∑
k=1
∂fi
∂yk
(g(x))
∂yk
∂xj
(x) (pela regra da cadeia)
=
m∑
k=1
Jfik(g(x))Jgkj(x)
Logo, Jh(x) = Jf (g(x))Jg(x).
1.16 Calcule o gradiente e o hessiano das funções f : Rn → R abaixo:
Temos que o vetor gradiente (∇f) e a matriz hessiana (H(f) ou ∇2f)
são definidos por:
∇f(x) =
(
∂f
∂x1
(x), . . . ,
∂f
∂xn
(x)
)t
Hi,j(f(x)) =
∂2f(x)
∂xi∂xj
(a) f(x) = atx =
∑n
i=1 aixi.
∂f
∂xi
= ai ⇒ ∇f = a
Hi,j(f(x)) =
∂2f(x)
∂xi∂xj
= 0⇒ H(f) = 0
(b) f(x) = 1
2
xtAx + btx + c = 1
2
∑n
i=1
∑n
j=1Aijxixj +
∑n
i=1 bixi + c,
onde A ∈ Rn×n, b ∈ Rn, c ∈ R.
11
∂f
∂xk
=
∂
∂xk
[
1
2
n∑
i=1
n∑
j=1
Aijxixj +
n∑
i=1
bixi + c
]
= bk +
1
2
∂
∂xk
[∑
i 6=k
∑
j 6=k
Aijxixj +
∑
i 6=k
Aikxixk +
∑
j 6=k
Akjxkxj + Akkx
2
k
]
= bk +
1
2
∑
i 6=k
Aikxi +
1
2
∑
j 6=k
Akjxj + Akkxk
= bk +
1
2
n∑
i=1
Aikxi +
1
2
n∑
j=1
Akjxj
Logo, ∇f = 1
2
(A+ At)x+ b.
Ainda,
Hk,l(f(x)) =
∂2f(x)
∂xk∂xl
=
∂
∂xk
[
∂f(x)
∂xl
]
=
∂
∂xk
[
bl +
1
2
n∑
i=1
Ailxi +
1
2
n∑
j=1
Aljxj
]
=
1
2
(Akl + Alk)
Logo, H(f) = 1
2
(A+ At) .
(c) f(x) = gt(x)g(x) = ‖g(x)‖22 =
∑m
i=1 gi(x)
2
, onde g : Rn → Rm
∂f
∂xj
=
m∑
i=1
∂
∂xj
gi(x)
2
=
m∑
i=1
2gi(x)
∂
∂xj
gi(x)Logo, ∇f = 2∑mi=1 gi(x)∇gi(x)
12
Ainda,
Hj,k(f(x)) =
∂2f(x)
∂xj∂xk
=
∂
∂xj
[
∂f(x)
∂xk
]
=
∂
∂xj
[
m∑
i=1
2gi(x)
∂
∂xk
gi(x)
]
=
m∑
i=1
2
∂
∂xj
[
gi(x)
∂
∂xk
gi(x)
]
=
m∑
i=1
2
[
gi(x)
∂
∂xj∂xk
gi(x) +
∂
∂xj
gi(x)
∂
∂xk
gi(x)
]
Logo, H(f) = 2
∑m
i=1 giH(gi) + 2
∑m
i=1∇gi∇gti .
1.17 Sejam A ∈ Rm×n, b ∈ Rm. Para x ∈ Rn, definimos q(x) = f(Ax + b)
com f : Rm → R. Calcule o gradiente e o hessiano da função q.
Temos que q(x) = f(y), onde y = Ax + b e yi = bi +
∑n
j=1Aijxi.
Portanto,
∂q
∂xk
=
m∑
i=1
∂f
∂yi
∂yi
∂xk
=
m∑
i=1
∂f
∂yi
∂
∂xk
[
bi +
n∑
j=1
Aijxi
]
=
∂f
∂yk
n∑
j=1
Akj
Logo, (∇q)k = ∂f∂yk
∑n
j=1Akj ⇒ ∇q = (∇f)t(A× 1), onde 1 ∈ {1}n×1
13
Ainda,
Hi,k(q(x)) =
∂2q(x)
∂xi∂xk
=
∂
∂xi
[
∂q(x)
∂xk
]
=
∂
∂xi
[
∂f
∂yk
n∑
j=1
Akj
]
= 0
Logo, H(q) = 0 .
1.18 Desenhe as curvas de nível das seguintes quadráticas:
(a) f(x, y) = x2 − y2 − x+ y − 1. Como
x2 − y2 − x+ y − 1 = z(
x− 1
2
)2
−
(
y − 1
2
)2
= z + 1
Temos que cada curva de nível é uma hipérbole de centro (1
2
, 1
2
)
(f é um paraboloide hiperbólico).
Figura 1: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
14
(b) f(x, y) = x2 + y2 + 2xy.
Como
x2 + y2 + 2xy = z
(x+ y)2 = z (logo, z ≥ 0)
x+ y = ±√z
y = −x±√z
Temos que cada valor de z determina duas curvas de nível que são
retas de coeficiente angular igual a -1 (f é um cilindro parabólico).
Figura 2: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
(c) f(x, y) = x2 + y2 − xy.
Como
x2 + y2 − xy = z(
x− y
2
)2
+
y2
4
3
= z
Temos que cada curva de nível é uma elipse de centro (y
2
, 0) (f é
um paraboloide elíptico).
15
Figura 3: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
(d) f(x, y) = xy.
Considerando a equação Ax2 +Bxy+Cy2 +Dx+Ey+F = 0 que
define as quádricas, temos que a curva de nível xy − z = 0 é uma
hipérbole pois B2 = 12 > 0 = 4∗0∗0 = 4AC (f é um paraboloide
hiperbólico).
Figura 4: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
1.19 Escreva a expansão em série de Taylor em torno do ponto x0 = 0 para
as seguintes funções:
Para uma função f : R→ R ∈ C∞, sua série de Taylor em torno de x0
é dada por:
16
f(x) =
∞∑
n=0
f (n)(x0)
n!
(x−x0)n = f(x0)+f
′(x0)
1!
(x−x0)+f
′′(x0)
2!
(x−x0)2+· · ·
(a) f(x) = cos(x).
Para n ∈ N, temos que:
cos(n)(0) =
cos(0) = 1 se n ≡ 0 (mod 4)
− sin(0) = 0 se n ≡ 1 (mod 4)
− cos(0) = −1 se n ≡ 2 (mod 4)
sin(0) = 0 se n ≡ 3 (mod 4)
Logo, apenas os termos de potências pares são não nulos, e por-
tanto a série de Taylor de cos(x) em torno de x0 = 0 é dada por:
cos(x) =
∞∑
k=0
(−1)kx2k
(2k)!
(b) f(x) = ln(x+ 1).
Para n = 0, f (n)(0) = ln(0 + 1) = 0.
Para n ∈ N∗, temos que:
f (n)(x) = (−1)n−1(n− 1)!(x+ 1)−n = (−1)
n−1(n− 1)!
(x+ 1)n
Aplicando em x = 0, obtemos:
f (n)(0) = (−1)n−1(n− 1)!
Logo, a série de Taylor de ln(x + 1) em torno de x0 = 0 é dada
por:
ln(x+ 1) =
∞∑
n=1
(−1)n−1(n− 1)!
n!
xn
=
∞∑
n=1
(−1)n−1
n
xn
17
(c) f(x) = exp(x).
Para n ∈ N, temos que:
exp(n)(0) = exp(0) = 1
Logo, a série de Taylor de exp(x) em torno de x0 = 0 é dada por:
exp(x) =
∞∑
n=0
xn
n!
1.20 Discuta a geometria das curvas de nível de uma função quadrática
f(x) = 1
2
xtAx + btx + c, onde A ∈ R2×2 simétrica, b ∈ R2, c ∈ R, nos
seguintes casos.
Sejam A =
[
a1 a2
a2 a1
]
e
b =
[
b1
b2
]
.
Logo f pode ser reescrita como
f(x1, x2) =
1
2
(a1x
2
1 + 2a2x1x2 + a1x
2
2︸ ︷︷ ︸
xtAx
) + b1x1 + b2x2︸ ︷︷ ︸
btx
+c
, com x1, x2 ∈ R.
Usemos também o fato de que, para uma dada matriz A ∈ Rn×n, o
traço de A é a soma dos seus autovalores (contando multiplicidades),
e o determinante de A é o produto de seus autovalores. Para a matriz
A ∈ R2×2 em questão (com autovalores λ1, λ2 ∈ R), temos então que:{
2a1 = λ1 + λ2
a21 − a22 = λ1λ2
(a) A > 0 (i.e., A é definida positiva: xtAx > 0 para todo x 6= 0).
Seja z = 1
2
(a1x
2
1 + 2a2x1x2 + a1x
2
2) + b1x1 + b2x2 + c uma curva de
nível de f . Comparando-a com a equação que define as quádricas
Ax21 +Bx1x2 +Cx
2
2 +Dx1 +Ex2 + F = 0, ela será uma elipse se
B2 < 4AC, isto é, se
18
a22 < 4(
a1
2
)(
a1
2
)
a22 < a
2
1
Como uma matriz simétrica é positiva definida ⇐⇒ todos os
seus autovalores são positivos, temos então que:{
2a1 = λ1 + λ2 > 0
a21 − a22 = λ1λ2 > 0⇒ a22 < a21
Logo, como a22 < a
2
1, as curvas de nível de f são elipses.
(b) A ≥ 0 (i.e., A é semidefinida positiva: xtAx ≥ 0 para todo x ∈ Rn
) e existe x tal que Ax+ b = 0.
não resolvido
(c) A ≥ 0 e não existe x tal que Ax+ b = 0.
não resolvido
(d) A indefinida (i.e., existem x, y ∈ Rn não nulos tais que xtAx >
0 > ytAy ) e não singular (i.e., det(A) 6= 0).
Seja z = 1
2
(a1x
2
1 + 2a2x1x2 + a1x
2
2) + b1x1 + b2x2 + c uma curva de
nível de f . Comparando-a com a equação que define as quádricas
Ax21 +Bx1x2 +Cx
2
2 +Dx1 +Ex2 +F = 0, ela será uma hipérbole
se B2 > 4AC, isto é, se
a22 > 4(
a1
2
)(
a1
2
)
a22 > a
2
1
Como uma matriz simétrica é indefinida ⇐⇒ tem autovalores
positivos e negativos, temos então que:
a21 − a22 = λ1λ2 < 0⇒ a22 > a21
Logo, como a22 > a
2
1, as curvas de nível de f são hipérboles.
19
1.21 Considere a função f(x, y) = x cos(y) + y sin(x). Determine a aproxi-
mação linear de f em torno do ponto (0, 0). Determine um limitante
para o erro na região [−1, 1]× [−1, 1].
Sendo f de classe C2, temos que o polinômio de Taylor de ordem 1 de
f(x, y) em torno de (x0, y0) é dado por:
P1(x, y) = f(x0, y0) +
∂f
∂x
(x0, y0)(x− x0) + ∂f
∂y
(x0, y0)(y − y0)
, sendo o erro (resto) de Lagrange dado por:
E1(x, y) =
1
2
[
∂2f
∂x2
(x¯, y¯)(x− x0)2 + 2 ∂
2f
∂x∂y
(x¯, y¯)(x− x0)(y − y0) + ∂
2f
∂y2
(x¯, y¯)(y − y0)2
]
para algum (x¯, y¯) interno ao segmento de extremidades (x0, y0) e (x, y).
Logo, para a função em questão segue que:
P1(x, y) = f(x0, y0) +
∂f
∂x
(x0, y0)(x− x0) + ∂f
∂y
(x0, y0)(y − y0)
= 0 + (cos(0) + 0 cos(0))(x− 0) + (−0 sin(0) + sin(0))(y − 0)
= x
e, para algum (x¯, y¯) interno ao segmento de extremidades (0, 0) e (x, y),
temos que o erro é dado por:
E1(x, y) =
1
2
[
∂2f
∂x2
(x¯, y¯)(x− x0)2 + 2 ∂
2f
∂x∂y
(x¯, y¯)(x− x0)(y − y0) + ∂
2f
∂y2
(x¯, y¯)(y − y0)2
]
=
1
2
[
(−y¯ sin(x¯))(x− 0)2 + 2(cos(x¯)− sin(y¯))(x− 0)(y − 0) + (−x¯ cos(y¯))(y − 0)2]
=
1
2
[−x2y¯ sin(x¯) + 2xy(cos(x¯)− sin(y¯))− yx¯ cos(y¯)]
Para (x, y), (x¯, y¯) ∈ [−1, 1]× [−1, 1], temos que :
− sin(1) ≤ −x2y¯ sin(x¯) ≤ sin(1)
2(cos(1)− sin(1)) ≤ 2xy(cos(x¯)− sin(y¯)) ≤ 2(1 + sin(1))
−1 ≤ −yx¯ cos(y¯) ≤ − cos(1)
20
Somando as três inequações acima, obtemos que em [−1, 1]× [−1, 1] o
erro é limitado por:
2 cos(1)− 3 sin(1)− 1 ≤ 2E1(x, y) ≤ 2 + 2 sin(1)− cos(1)
|2E1(x, y)| ≤ 2 + 2 sin(1)− cos(1)
|E1(x, y)| ≤ 1 + 1 sin(1)− cos(1)
2
1.2 Capítulo 2 - Condições de otimalidade para mini-
mização sem restrições
2.1 Sejam g : R → R uma função estritamente crescente e f : Rn → R.
Prove que minimizar f(x) é equivalente a minimizar g(f(x)).
Como g é estritamente crescente, temos que x1 < x2 ⇐⇒ g(x1) <
g(x2) para todo (x1, x2) ∈ R2.
⇒ Sendo x∗ minimizador global de f , temos f(x∗) < f(x) para todo
x ∈ R. Como g é estritamente crescente, segue g(f(x∗)) < g(f(x))
para todo x ∈ R. Logo, x∗ minimiza g(f(x)).
⇐ Sendo x∗ minimizador global deg(f(x)), temos g(f(x∗)) < g(f(x))
para todo x ∈ R. Como g é estritamente crescente, g é injetora e por-
tanto admite uma inversa g−1. Logo, g−1(g(f(x∗))) < g−1(g(f(x)))⇒
f(x∗) < f(x) para todo x ∈ R. Logo, x∗ minimiza f(x).
2.2 Resolva o problema de minimizar ‖Ax− b‖, onde A ∈ Rm×n e b ∈ Rm.
Considere todos os casos possíveis e interprete geometricamente.
Como ‖.‖ ≥ 0, minimizar ‖Ax− b‖ equivale a minimizar ‖Ax− b‖2.
Logo,
‖Ax− b‖2 = (Ax− b)t(Ax− b)
= xtAtAx− 2btAx+ btb
Derivando em relação a x e igualando a 0, obtemos:
2AtAx− 2Atb = 0
AtAx = Atb
21
Se as colunas de A forem independentes (i.e., se A tiver posto n), então
AtA ∈ Rn×n será invertível e a solução é dada por x = (AtA)−1Atb.
Geometricamente, queremos escrever b como combinação linear das co-
lunas de A tal que ‖Ax− b‖ seja o menor possível, i.e., que queremos
que Ax∗ seja a projeção de b no espaço coluna de A. Equivalentemente,
queremos que Ax−b esteja no espaço ortogonal ao espaço coluna de A,
isto é, queremos que At(Ax− b) = 0⇒ AtAx = Atb (que é exatamente
a condição de otimalidade acima).
Se posto(A) = r < n, então existem matrizes Aˆ, Q e R tais que Aˆ
é obtida de A via permutação de colunas, Q ∈ Rm×m é ortogonal,
R =
[
R11 R12
0 0
]
∈ Rm×n , R11 ∈ Rr×r é não singular e triangular
superior, e Aˆ = QR.
Dado x ∈ Rn, seja xˆ o vetor obtido de x usando a mesma sequência
de permutações usada para transformar A em Aˆ. Logo, Aˆxˆ = Ax, e
portanto minimizar ‖Ax− b‖ equivale a minimizar
∥∥∥Aˆxˆ− b∥∥∥. Dái vem
que :
Aˆxˆ = b
QRxˆ = b
QtQRxˆ = Qtb
Rxˆ = Qtb (pois Q é ortogonal)[
R11 R12
0 0
] [
xˆ1
xˆ2
]
=
[
cˆ
d
]
O resíduo do sistema acima é dado por s =
[
cˆ−R11xˆ1 −R12xˆ2
d
]
e,
portanto, para minimizar ‖s‖, basta escolher xˆ2 ∈ Rn−r qualquer e
resolver o sistema R11xˆ1 = cˆ−R12xˆ2 ⇒ xˆ1 = R−111 (cˆ−R12xˆ2) (possível
pois R11 é não singular).
2.3 Considere os números reais a1 ≤ a2 ≤ · · · ≤ an. Encontre a solução
dos seguintes problemas:
(a) Minimizar
n∑
i=1
|x− ai|.
22
É imediato que a solução ótima x∗ está em [a1, an], já que a função
objetivo f apenas aumenta se x > an ou se x < a1. Logo, para
ak ≤ x ≤ x+ d ≤ ak + 1, temos:
f(x+ d) =
k∑
i=1
(x+ d− ai) +
n∑
i=k+1
(ai − (x+ d))
= dk +
k∑
i=1
(x− ai)− d(n− k) +
n∑
i=k+1
(ai − x)
= d(2k − n) +
k∑
i=1
(x− ai) +
n∑
i=k+1
(ai − x)
= d(2k − n) + f(x)
Logo, temos a �derivada� f(x+d)−f(x) = d(2k−n) =
< 0 se k < n/2
0 se k = n/2
> 0 se k > n/2
Portanto, para minimizar f(x) escolhemos k = n/2, isto é, f(x) é
minimizado pela mediana de a1, . . . , an.
(b) Minimizar max
i=1,...,n
|x− ai| .
parcialmente resolvido
Temos que o problema é equivalente ao problema linear :
minimizar f(x, y) = y
s.a. y ≥ x− ai ∀i = 1, . . . , n
y ≥ −x+ ai ∀i = 1, . . . , n
Essa formulação garante que y ≥ max
i=1,...,n
|x− ai| (para todo y viá-
vel), e a minimização de y fará com que a solução ótima y∗ seja
tal que y∗ = max
i=1,...,n
|x− ai|. Logo, se todos os ai forem diferentes,
apenas duas restrições estarão ativas na solução ótima.
Reescrevendo as restrições, temos:
23
minimizar f(x, y) = y
s.a. x− y ≤ ai ∀i = 1, . . . , n
−x− y ≤ −ai ∀i = 1, . . . , n
Logo, o problema é tal que:
minimizar f(x, y) = y
s.a. Ax ≤ b
Nesse caso, temos A =
1 −1
1 −1
.
.
.
.
.
.
−1 −1
−1 −1
e b =
a1
.
.
.
an
−a1
.
.
.
−an
.
Pela observação anterior, sendo (x∗, y∗) a solução ótima, seja ai
tal que x∗ − y∗ = ai e −x∗ − y∗ = −ai. Portanto, a matriz
de coeficientes das restrições ativas é AI =
[
1 −1
−1 −1
]
. Pela
condição de otimalidade de primeira ordem (teorema 9.1 da p. 69
do livro da Ana), então existe λ∗ ∈ R2− tal que:
∇f(x∗, y∗) = AtI(λ∗1, λ∗2)t
(0, 1)t =
[
1 −1
−1 −1
]
(λ∗1, λ
∗
2)
t
(0, 1)t = (λ∗1 − λ∗2,−λ∗1 − λ∗2)t
λ∗1 = λ
∗
2 = −
1
2
(c) Minimizar
n∑
i=1
|x− ai|2.
Temos que:
24
f ′(x) =
n∑
i=1
2(x− ai)
= 2
n∑
i=1
(x− ai)
= 2
n∑
i=1
x− 2
n∑
i=1
ai
= 2nx− 2
n∑
i=1
ai
Logo, os pontos estacionários x∗ são dados por:
f ′(x∗) = 0
2
n∑
i=1
(x∗ − ai) = 0
n∑
i=1
(x∗ − ai) = 0
nx∗ −
n∑
i=1
ai = 0
x∗ =
n∑
i=1
ai
n
Ainda, como
f ′′(x) = 2n
> 0 (para n > 0)
Temos então que x∗ =
n∑
i=1
ai
n
é o minimizador de f .
25
(d) Maximizar
n∏
i=1
|x− ai|.
Como lim
‖x‖→∞
f(x) = +∞, f não tem um maximizador global.
Porém, como f(x) ≥ 0 e f(ai) = 0 ∀i = 1, . . . , n, todo ai (i =
1, . . . , n) é minimizador global de f .
2.4 Obtenha expressões para as derivadas primeiras e segundas da função
de Rosenbrock f(x) = 100(x2−x21)2+(1−x1)2. Verifique que x¯ = (1, 1)t
é um minimizador local. Prove que ∇2f(x¯) é singular se e somente se
x2 − x21 = 0.005.
As derivadas parciais são dadas por:
∂f
∂x1
= −400x1(x2 − x21)− 2(1− x1)
∂2f
∂x21
= −400x2 + 1200x21 + 2
∂f
∂x2
= 200(x2 − x21)
∂2f
∂x22
= 200
∂2f
∂x1∂x2
= −400x1
Logo,∇f(x) = (−400x1(x2−x21)−2(1−x1), 200(x2−x21))t e ∇2f(x) =[ −400x2 + 1200x21 + 2 −400x1
−400x1 200
]
.
Sendo x¯ = (1, 1)t, temos ∇f(x¯) = (0, 0)t e ∇2f(x¯) =
[
802 −400
−400 200
]
.
Utilizemos o fato de que uma matriz é definida positiva ⇐⇒ todos os
seus menores principais são positivos. Os menores principais de ∇2f(x¯)
(determinantes das submatrizes principais de ∇2f(x¯)) são ∆1 = 802 >
0, ∆1 = 200 > 0 e ∆2 = 802× 200− (−400×−400) = 400 > 0. Como
são todos positivos, ∇2f(x¯) é definida positiva.
Portanto, como ∇f(x¯) = (0, 0)t e ∇2f(x¯) é definida positiva, x¯ é um
minimizador local de f .
26
Além disso, temos que
det(∇2f(x)) = (−400x2 + 1200x21 + 2)× (200)− (−400x1)× (−400x1)
= 80000(x21 − x2) + 400
Portanto, ∇2f(x) é singular ⇐⇒ det(∇2f(x)) = 0 ⇐⇒ x21 − x2 =
−400/80000 = −0.005 ⇐⇒ x2 − x21 = 0.005
2.5 Encontre os pontos estacionários de f(x) = 2x31−3x21−6x1x2(x1−x2−
1). Quais desses pontos são minimizadores ou maximizadores, locais
ou globais?
As derivadas parciais são dadas por:
∂f
∂x1
= 6x21 − 6x1 − 12x1x2 + 6x22 + 6x2
∂2f
∂x21
= 12x1 − 6− 12x2
∂f
∂x2
= −6x21 + 12x1x2 + 6x1
∂2f
∂x22
= 12x1
∂2f
∂x1∂x2
= −12x1 + 12x2 + 6
Logo,∇f(x) = (6x21 − 6x1 − 12x1x2 + 6x22 + 6x2,−6x21 + 12x1x2 + 6x1)t
e ∇2f(x) =
[
12x1 − 6− 12x2 −12x1 + 12x2 + 6
−12x1 + 12x2 + 6 12x1
]
.
Os pontos estacionários são dados pelo sistema:{
6x21 − 6x1 − 12x1x2 + 6x22 + 6x2 = 0
−6x21 + 12x1x2 + 6x1 = 0
, e são x0 = (−1,−1), x1 = (0,−1), x2 = (0, 0) e x3 = (1, 0), com
f(x0) = 1, f(x1) = 0, f(x2) = 0, f(x3) = −1.
Temos então que
27
∇2f(x0) =
[ −6 6
6 −12
]
⇒ det(∇2f(x0)) = 36 > 0 e ∂
2f
∂x21
(x0) = −6 < 0
∇2f(x1) =
[
6 −6
−6 0
]
⇒ det(∇2f(x1)) = −36 < 0
∇2f(x2) =
[ −6 6
6 0
]
⇒ det(∇2f(x2)) = −36 < 0
∇2f(x3) =
[
6 −6
−6 12
]
⇒ det(∇2f(x3)) = 36 > 0 e ∂
2f
∂x21
(x3) = 6 > 0
Logo, pelo teste da derivada segunda, x0 = (−1,−1) é máximo local
(não global, pois f(0.5,−1.5) = 4 > 1 = f(x0)), x1 = (0,−1) e x2 =
(0, 0) são pontos de sela e x3 = (1, 0) é mínimo local (não global, pois
f(−1.5, 0.5) = −27 < −1 = f(x3)).
2.6 Seja f(x) = (x1 − x22)(x1 − 12x22). Verifique que x¯ = (0, 0)t é um mi-
nimizador local de φ(λ) ≡ f(x¯ + λd) para todo d ∈ R2, mas x¯ não é
minimizador local de f .
As derivadas parciais de f são dadas por:
∂f
∂x1
= 2x1 − 3
2
x22
∂2f
∂x21
= 2
∂f
∂x2
= −3x1x2 + 2x32
∂2f
∂x22
= −3x1 + 6x22
∂2f
∂x1∂x2
= −3x2
Logo,∇f(x) = (2x1−32x22,−3x1x2+2x32)t e∇2f(x) =
[
2 −3x2
−3x2 −3x1 + 6x22
]
.
Temos então que
28
∇f(x¯) = (2× 0− 3
2
02,−3× 0× 0 + 2× 03)t = (0, 0)t
∇2f(x¯) =
[
2 0
0 0
]
⇒ ∆1 = 2 ≥ 0,∆1 = 0 ≥ 0,∆2 = 2× 0− (0× 0) = 0 ≥ 0
⇒ ∇2f(x¯) é semidefinidapositiva
Logo, como ∇f(x¯) = 0 e ∇2f(x¯) é semidefinida positiva, estão satis-
feitas as condições necessárias para que x¯ seja minimizador local de
f . Porém, x¯ não é minimizador local de f , pois para x1 =
2
3
x22 (com
x2 6= 0) temos f(x1, x2) = (−13x22)(16x22) < 0 = f(x¯) e (23x22, x2)
x2→0−−−→ x¯.
Ainda, temos que
φ(λ) = f(x¯+ λd)
= f((0, 0)t + λ(d1, d2)
t)
= f((λd1, λd2)
t)
= (λd1 − (λd2)2)(λd1 − 1
2
(λd2)
2)
=
1
2
λ4d42 −
3
2
λ3d1d
2
2 + λ
2d21
Dái vem que as derivadas de φ são dadas por:
dφ
dλ
= 2λ3d42 −
9
2
λ2d1d
2
2 + 2λd
2
1 ⇒
dφ
dλ
(0) = 0
d2φ
dλ2
= 6λ2d42 − 9λd1d22 + 2d21 ⇒
d2φ
dλ2
(0) = 2d21 > 0 se d1 6= 0
Logo, λ = 0 é um minimizador local de φ(λ) se d1 6= 0.
2.7 Prove que a função f(x) = (x2 − x21)2 + x51 tem um único ponto estaci-
onário que não é minimizador nem maximizador local.
As derivadas parciais de f são dadas por:
29
∂f
∂x1
= −4x1x2 + 4x31 + 5x41
∂2f
∂x21
= −4x2 + 12x21 + 20x31
∂f
∂x2
= 2x2 − 2x21
∂2f
∂x22
= 2
∂2f
∂x1∂x2
= −4x1
Logo,∇f(x) = (−4x1x2 + 4x31 + 5x41, 2x2 − 2x21)t e
∇2f(x) =
[ −4x2 + 12x21 + 20x31 −4x1
−4x1 2
]
.
Os pontos estacionários são dados pelo sistema:{
−4x1x2 + 4x31 + 5x41 = 0
2x2 − 2x21 = 0
⇒
{
x1(5x
3
1 + 4x
2
1 − 4x2) = 0
−2(x21 − x2) = 0
, cuja única solução é x0 = (0, 0)
t
.
Temos que x0 não é minimizador local de f , pois para x2 = x
2
1 (com
x1 < 0) temos f(x1, x2) = x
5
1 < 0 = f(x0) e (x1, x
2
1)
x1→0−−−−−→ x0.
Analogamente, temos que x0 não é maximizador local de f , pois para
x2 = x
2
1 (com x1 > 0) temos f(x1, x2) = x
5
1 > 0 = f(x0) e (x1, x
2
1)
x1→0+−−−−→
x0.
Logo, f tem um único ponto estacionário x0 = (0, 0)
t
que não é mini-
mizador nem maximizador local de f .
2.8 Encontre funções f : Rn → R, n ≥ 2, tais que ∇(x¯) = 0 e x¯ é:
(a) maximizador local, não global;
Como já visto no exercício 2.5 para a função f(x) = 2x31 − 3x21 −
6x1x2(x1− x2− 1), temos que x0 = (−1,−1) é máximo local (não
global, pois f(0.5,−1.5) = 4 > 1 = f(x0)), pois ∇f(x0) = 0,
det(∇2f(x0)) = 36 > 0 e ∂2f∂x21 (x0) = −6 < 0 .
30
(b) ponto de sela;
Como já visto no exercício 2.5 para a função f(x) = 2x31 − 3x21 −
6x1x2(x1 − x2 − 1), temos que x1 = (0,−1) e x2 = (0, 0) são
pontos de sela pois ∇f(x1) = ∇f(x2) = 0 e det(∇2f(x1)) =
det(∇2f(x2)) = −36 < 0.
(c) minimizador global.
Seja f(x, y) = 3x4 + 2y4. Temos que ∇f(x) = (12x3, 8y3)t,
∇f((0, 0)t) = (0, 0)t e (0, 0)t é minimizador global de f pois
f(x, y) ≥ 0 para todo (x, y) ∈ R2
2.9 Para aproximar uma função g no intervalo [0, 1] por um polinômio de
grau ≤ n, minimizamos a função critério: f(a) = ∫ 1
0
[g(x) − p(x)]2 dx,
onde p(x) = a0 + a1x + · · · + anxn. Encontre as equações a serem
satisfeitas pelos coeficientes ótimos.
Temos que f(a) aumenta quando ‖a‖ aumenta e, como f é limitada
inferiormente por 0, f deve ter um mínimo. Como f é diferenciável
em função de a, então esse mínimo deve ocorrer quando ∇f(a) = 0.
Temos que:
∂f
∂ak
=
∂
∂ak
[∫ 1
0
[g(x)− p(x)]2 dx
]
=
∂
∂ak
[∫ 1
0
[g(x)− (a0 + · · ·+ ak−1xk−1 + akxk + ak+1xk+1 + · · ·+ anxn)]2 dx
]
= −2
∫ 1
0
[g(x)− (a0 + · · ·+ ak−1xk−1 + akxk + ak+1xk+1 + · · ·+ anxn)]xk dx
= −2
∫ 1
0
g(x)xk dx+ 2
n∑
i=0
ai
∫ 1
0
xk+i dx
= −2
∫ 1
0
g(x)xk dx+ 2
n∑
i=0
ai
[
xk+i+1
k + i+ 1
] ∣∣∣1
0
= −2
∫ 1
0
g(x)xk dx+ 2
n∑
i=0
ai
k + i+ 1
Logo, para cada k = 0, 1, . . . , n, as equações a serem satisfeitas pelos
coeficientes ótimos são descritas pelo seguinte sistema:
31
∂f
∂ak
= 0
−2
∫ 1
0
g(x)xk dx+ 2
n∑
i=0
ai
k + i+ 1
= 0
∫ 1
0
g(x)xk dx =
n∑
i=0
ai
k + i+ 1
2.10 Considere o problema irrestrito minimizar f(x) = x21 − x1x2 + 2x22 −
2x1 + exp(x1 + x2).
(a) Escreva as condições necessárias de primeira ordem. São suficien-
tes? Por quê?
As condições de primeira ordem são dadas por:
∂f
∂x1
= 2x1 − x2 − 2 + exp(x1 + x2) = 0
∂f
∂x2
= −x1 + 4x2 + exp(x1 + x2) = 0
Nesse caso, as condições de primeira ordem são suficientes, pois
f(x, y) é convexa (por ser soma de funções convexas).
∂2f
∂x21
= 2 + exp(x1 + x2)
∂2f
∂x22
= 4 + exp(x1 + x2)
∂2f
∂x1∂x2
= −1 + exp(x1 + x2)
Logo, ∇2f(x) =
[
2 + exp(x1 + x2) −1 + exp(x1 + x2)
−1 + exp(x1 + x2) 4 + exp(x1 + x2)
]
.
Os menores principais de ∇2f(x) (determinantes das submatrizes
principais de ∇2f(x¯)) são ∆1 = 2 + exp(x1 + x2) ≥ 0, ∆1 =
32
4 + exp(x1 + x2) ≥ 0 e ∆2 = (2 + exp(x1 + x2)) × (4 + exp(x1 +
x2))− [(−1 + exp(x1 +x2))× (−1 + exp(x1 +x2))] ≥ (2 + exp(x1 +
x2))
2 − (−1 + exp(x1 + x2))2 ≥ 0. Como são todos não negativos,
∇2f(x¯) é semidefinida positiva.
Nesse caso, as condições de primeira ordem são suficientes, pois
∇2f(x) é semidefinida positiva ∀x ∈ R2 (e portanto f é convexa,
o que faz a condição necessária de primeira ordem ser também
suficiente pois R2 é convexo ).
(b) O ponto x¯ = (0, 0)t é ótimo?
Não, pois
∂f
∂x1
(x¯) = −1 6= 0
∂f
∂x2
(x¯) = 1 6= 0
(c) Ache uma direção d ∈ R2 tal que ∇f(x¯)td < 0 .
Tomando d = (1,−1)t, temos ∇f(x¯)td = −1 × 1 + 1 × (−1) =
−2 < 0
(d) Minimize a função a partir de x¯ na direção obtida em (c).
Para λ = 0.25, temos que f(x¯ + λd) = f(0.25,−0.25) ≈ 0.75 <
1 = f(x¯)
2.11 Seja F : Rn → Rn com derivadas contínuas. Seja f : Rn → R dada
por f(x) = ‖F (x)‖2. Seja x¯ minimizador local de f tal que JF (x¯) é
não-singular. Prove que x¯ é solução do sistema F (x) = 0.
Seja F (x) = (F1(x), . . . , Fn(x))
t
, com Fi : R
n → R. Temos então que
f(x) = ‖F (x)‖22 =
n∑
i=1
Fi(x)
2
. Daí segue que:
(∇f(x))k = ∂f
∂xk
=
∂
∂xk
[
n∑
i=1
Fi(x)
2
]
= 2
n∑
i=1
Fi(x)
∂Fi
∂xk
(x)
= 2
n∑
i=1
Fi(x)(JF (x))ik
33
Logo, ∇tf(x) = 2F (x)tJF (x) ⇒ ∇f(x) = 2J tF (x)F (x). Se x∗ é mini-
mizador local de f temos ∇f(x∗) = 0 e portanto
2J tF (x
∗)F (x∗) = ∇f(x∗)
2J tF (x
∗)F (x∗) = 0
J tF (x
∗)F (x∗) = 0
Como JF (x
∗) é não-singular, então o sistema homogêneo J tF (x
∗)F (x∗) =
0 apenas admite a solução trivial F (x∗) = 0. Logo, x∗ é solução do sis-
tema F (x) = 0.
2.12 Considere f : R2 → R, f(x) = (x31 + x2)2 + 2(x2 − x1 − 4)4. Dado
um ponto x ∈ R2 e uma direção 0 6= d ∈ R2, construímos a função
g(λ) = f(x+ λd).
(a) Obtenha uma expressão explícita para g(λ)
g(λ) = f(x+ λd)
= f((x1, x2)
t + λ(d1, d2)
t)
= f((x1 + λd1, x2 + λd2)
t)
= ((x1 + λd1)
3 + (x2 + λd2))
2 + 2((x2 + λd2)− (x1 + λd1)− 4)4
(b) Para x = (0, 0)t e d = (1, 1)t, encontre o minimizador de g
Nesse caso, temos:
g(λ) = ((0 + λ)3 + (0 + λ))2 + 2((0 + λ)− (0 + λ)− 4)4
= (λ3 + λ)2 + 512
Dái vem que as derivadas de g são dadas por:
dg
dλ
= 2(1 + 3λ2)(λ+ λ3) = 0⇒ λ = 0
d2g
dλ2
= 2 + 24λ2 + 30λ4 ⇒ d
2g
dλ2
(0) = 2 > 0
Logo, λ = 0 é um minimizador local de g(λ). Esse minimizador
também é global pois, g(λ) = (λ3 + λ)2 + 512 ≥ 512 = g(0).
34
2.13 Considere a função f(x) = (x1 − 1)2x2. Considere os pontos de R2 da
forma xˆ = (1, x2)
t
.
(a) Analise as condições de otimalidade de primeira e segunda ordem
para esses pontos;
As derivadas parciais de f são dadas por:
∂f
∂x1
= 2x2(x1 − 1)
∂2f
∂x21
= 2x2
∂f
∂x2
= (x1 − 1)2
∂2f
∂x22
= 0
∂2f
∂x1∂x2
= 2(x1 − 1)
Logo,∇f(x) = (2x2(x1−1), (x1−1)2)t e∇2f(x) =
[
2x2 2(x1 − 1)
2(x1 − 1) 0
]
.
Assim, ∇f(xˆ) = (0, 0)t e∇2f(xˆ) =
[
2x2 0
0 0
]
, que é semidefinida
positiva ⇐⇒ x2 ≥ 0.
(b) O que se pode afirmar sobre xˆ utilizando essas informações?
Logo, todos os pontos xˆ são estacionários, mas apenas os com x2 ≥
0 satisfazem a condição necessária para serem mínimos locais.
(c) Use a expressão da função para obter afirmações mais conclusivas
sobre as características de xˆ.Temos que
f(xˆ) = (1− 1)2x2
= 0
Logo, os pontos xˆ estão na curva de nível f(x) = 0.
2.14 Sejam f(x) = 1
2
xtQx − btx, Q ∈ Rn×n simétrica definida positiva e
b ∈ Rn. Sejam x0, x1, . . . , xn ∈ Rn e definimos δj = xj − x0, γj =
35
∇f(xj) − ∇f(x0), j = 0, 1, . . . , n.Prove que se os vetores {δj}nj=1 são
linearmente independentes, então
x˜ = xn − [δ1 . . . δn].[γ1 . . . γn]−1.∇f(xn)
é minimizador global de f .
Pelo exercício 1.16)b), sabemos que ∇f(x) = Qx − b e ∇2f(x) = Q.
Como δj = xj − x0, então xj = δj + x0. Para todo j = 1, . . . , n, temos
que:
γj = ∇f(xj)−∇f(x0)
= Q(δj + x0)− b− [Qx0 − b]
= Qδj +���
��
Qx0 − b−�����[Qx0 − b]
= Qδj
Pela observação da página 39 do livro da Ana, como {δj}nj=1 são linear-
mente independentes então as n diferenças γj = ∇f(δj + x0)−∇f(x0)
(j = 1, . . . , n) determinam completamente Q e Q−1. Nesse caso, temos
então que:
([δ1 . . . δn].[γ1 . . . γn])−1 = ([δ1 . . . δn].[Qδ1 . . . Qδn])−1
= Q−1 (Q é invertível pois é simétrica definida positiva)
Daí vem que
x˜ = xn − [δ1 . . . δn].[γ1 . . . γn]−1.∇f(xn)
= xn −Q−1∇f(xn)
= xn −∇2f(xn)−1∇f(xn)
Portanto, x˜ é obtido a partir de xn via uma iteração do método de
Newton. Logo, x˜ é o minimizador global de f , pois o método de Newton
para funções quadráticas com hessiana definida positiva converge em
um passo para o minimizador global de f (pela proposição 6.1 da p. 35
do livro da Ana).
36
2.15 Definimos a norma de Frobenius de uma matriz A ∈ Rm×n como
‖A‖F =
(
m∑
i=1
n∑
j=1
a2ij
)1/2
. Dada uma matriz A ∈ Rn×n, encontre a matriz simétrica mais pró-
xima de A na norma de Frobenius, isto é, encontre a matriz B ∈ Rn×n,
simétrica tal que ‖A−B‖F é mínima.
Sejam A ∈ Rn×n, B ∈ Rn×n simétrica com elementos (variáveis) bij
(como B é simétrica, bij = bji). Definimos f(B) = f(b11, . . . , bnn) =
‖A−B‖F =
(
n∑
i=1
n∑
j=1
(aij − bij)2
)1/2
.
Temos que f(B) aumenta quando ‖B‖F aumenta e, como f é limitada
inferiormente por 0 (basta escolher B = A), f deve ter um mínimo.
Como f é diferenciável em função de B, então esse mínimo deve ocorrer
quando ∇f(B) = 0. Temos que:
∂f
∂bkl
=
∂
∂bkl
( n∑
i=1
n∑
j=1
(aij − bij)2
)1/2
=
1
2
(
n∑
i=1
n∑
j=1
(aij − bij)2
)−1/2
(−2(akl − bkl)− 2(alk − blk))
Se A for simétrica, temos que B = A minimiza f . Se A não for simé-
trica, temos ‖A−B‖F > 0 e portanto ∇f apenas será nulo quando o
seguinte sistema for satisfeito (definamos xkl = bkl = blk):{
−2(akl − bkl)− 2(alk − blk) = 0 ⇒
{
xkl = (akl + alk)/2
Logo, a matriz B simétrica que minimiza f é dada por B = 1
2
(A+At)
2.16 Seja f : R → R e suponha f (j)(a) = 0, j = 0, . . . , n − 1 e f (n)(a) 6= 0.
Sobre que condições o ponto x = a poderá ser um minimizador de f?
Baseado em sua resposta: f(x) = x13 tem um mínimo em x = 0 ? E
f(x) = x16 ?
O teste da derivada de ordem superior (https://en.wikipedia.org/
wiki/Higher-order_derivative_test) diz que:
Seja f : R → R função de classe Cn+1 no intervalo I ⊂ R, c ∈ I ,
n ≥ 1. Se f ′(c) = · · · = f (n)(c) = 0 e f (n+1)(c) 6= 0, então:
37
• se n é ímpar temos um extremante local em c, isto é:
1. f (n+1)(c) < 0⇒ c é um máximo local
2. f (n+1)(c) > 0⇒ c é um mínimo local
• se n é par temos um ponto de sela (local) em c, isto é:
1. f (n+1)(c) < 0 ⇒ c é um ponto de inflexão estritamente de-
crescente
2. f (n+1)(c) > 0 ⇒ c é um ponto de inflexão estritamente cres-
cente
Para f(x) = x13, temos f ′(0) = · · · = f (12)(0) = 0 e f (12+1)(0) =
13! > 0. Logo, como 12 é par e f (12+1)(0) > 0, segue que c = 0 é um
ponto de inflexão estritamente crescente.
Para f(x) = x16, temos f ′(0) = · · · = f (15)(0) = 0 e f (15+1)(0) =
15! > 0. Logo, como 15 é ímpar e f (15+1)(0) > 0, segue que c = 0 é um
ponto de mínimo local.
2.17 Se for possível determine a e b de modo que f(x) = x3 +ax2 + bx tenha
um máximo local em x = 0 e um mínimo local em x = 1.
Dái vem que as derivadas de f são dadas por:
f ′(x) = 3x2 + 2ax+ b
f ′′(x) = 6x+ 2a
Supondo que 0 e 1 sejam extremantes locais, temos o sistema:{
f ′(0) = 0
f ′(1) = 0
⇒
{
b = 0
a = −3/2
Como x = 0 é máximo local e x = 1 é mínimo local, também devemos
ter:{
f ′′(0) < 0
f ′′(1) > 0
⇒
{
2(−3/2) = −3 < 0
6 + 2(−3/2) = 3 > 0
Logo, para que x = 0 seja máximo local e x = 1 seja mínimo local, é
suficiente que a = −3/2 e b = 0.
38
1.3 Capítulo 3 - Convexidade
3.1 Prove que a intersecção de conjuntos convexos é convexa.
Sejam S, T ⊂ Rn convexos, e sejam x, y ∈ S ∩ T . Como S é convexo,
∀λ ∈ [0, 1] segue que λx + (1 − λ)y ∈ S. Analogamente, como T é
convexo, ∀λ ∈ [0, 1] segue que λx + (1 − λ)y ∈ T . Logo, todas as
combinações convexas de elementos de S ∩ T estão tanto em S quanto
em T , isto é, estão em S ∩ T . Portanto, S ∩ T é convexo.
3.2 Prove que S = {x ∈ Rn | ‖x‖ ≤ c, c > 0}, onde ‖.‖ é uma norma
qualquer em Rn, é um conjunto convexo.
Sejam x, y ∈ S e λ ∈ [0, 1]. Temos que:
‖λx+ (1− λ)y‖ ≤ ‖λx‖+ ‖(1− λ)y‖ (desig. triang)
= λ ‖x‖+ (1− λ) ‖y‖ (‖.‖ é norma e λ, 1− λ ∈ R+)
≤ λc+ (1− λ)c (x, y ∈ S)
= c
Logo, ‖λx+ (1− λ)y‖ ≤ c e portanto λx+ (1− λ)y ∈ S. Como x, y, λ
foram escolhidos arbitrariamente, segue que S é convexo.
3.3 Verifique se as funções abaixo são convexas:
(a) f(x) = max{g(x), h(x)}, onde g e h são funções convexas;
Sejam x, y ∈ S (conjunto convexo que é o domínio de g e h) e
λ ∈ [0, 1]. Temos que:
f(λx+ (1− λ)y) = max{g(λx+ (1− λ)y), h(λx+ (1− λ)y)}
≤ max{λg(x) + (1− λ)g(y), λh(x) + (1− λ)h(y)}
(g, h são convexas)
≤ max{λg(x), λh(x)}+ max{(1− λ)g(y), (1− λ)h(y)}
= λmax{g(x), h(x)}+ (1− λ) max{g(y), h(y)}
= λf(x) + (1− λ)f(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que f é con-
vexa.
39
(b) t(x) =
∑n
i=1 x
2
i = ‖x‖22
Primeiramente, provemos que g(x) = ‖x‖2 é convexa. Sejam
x, y ∈ S (conjunto convexo que é o domínio de g) e λ ∈ [0, 1].
Temos que:
g(λx+ (1− λ)y) = ‖λx+ (1− λ)y‖2
≤ ‖λx‖2 + ‖(1− λ)y‖2 (desig. triang)
= λ ‖x‖2 + (1− λ) ‖y‖2 (‖.‖2 é norma e λ, 1− λ ∈ R+)
= λg(x) + (1− λ)g(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que g é con-
vexa.
Além disso, notemos que f(x) = x2 é convexa (pois f ′′(x) = 2 ≥ 0)
e também é não decrescente para x ≤ 0. Daí segue que, para
x, y ∈ S (conjunto convexo que é o domínio de g) e λ ∈ [0, 1]:
t(λx+ (1− λ)y) = f(g(λx+ (1− λ)y))
≤ f(λg(x) + (1− λ)g(y))
(f é não decrescente para x ≥ 0 e g é convexa
com contradomínio R+)
≤ λf(g(x)) + (1− λ)f(g(y)) (f é convexa)
= λt(x) + (1− λ)t(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que t é con-
vexa (mais geralmente, se f é convexa não decrescente e g é con-
vexa, segue que a composta f ◦ g é convexa).
(c) s(x) = exp(f(x)), f : Rn → R.
Suponhamos que f seja convexa. Temos também que exp(x) é
convexa (pois exp′′(x) = exp(x) > 0) e não decrescente. Logo,
como s = exp ◦f , exp é convexa não decrescente e f é convexa,
segue pelo exercício anterior (3.3)b)) que s é convexa.
3.4 Desenhe as curvas de nível de uma função convexa. Justifique!
40
Seja f uma função convexa definida num convexo S. Seja também
nivα(f) = {x ∈ S | f(x) ≤ α} o conjunto de nível de f correspondente
à constante α ∈ R.
Provemos que nivα(f) é um conjunto convexo. Para x, y ∈ nivα(f) e
λ ∈ [0, 1], temos que:
f(λx+ (1− λ)y) ≤ λf(x) + (1− λ)f(y) (f é convexa)
≤ λα + (1− λ)α (x, y ∈ nivα(f))
= α
Logo, λx+ (1− λ)y ∈ nivα(f). Como x, y, λ são arbitrários, segue que
nivα(f) é um conjunto convexo.
Como a curva de nível correspondente a α é a fronteira do conjunto
nivα(f), isso significa que cada curva de nível de f é a fronteira de um
conjunto convexo (que é nivα(f) ). Em outras palavras, cada curva de
nível de f é uma curva convexa. Por exemplo, as curvas de nível de
f(x, y) = x2 + y2 estão a seguir:
Figura 5: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores dafunção.
3.5 Seja f um conjunto convexo não vazio em Rn. Seja f : Rn → R a
função definida por f(y) = min{‖y − x‖ | x ∈ S}. Esta função é
convexa. Prove esta afirmação quando S = {x ∈ R2 | ax1 + bx2 = c} .
Interprete geometricamente.
S é conjunto dos pontos (x1, x2) ∈ R2 que pertencem à reta definida
por ax1 + bx2− c = 0. Como f(y) = min{‖y − x‖ | x ∈ S}, temos que
41
f(y) é a distância de y à reta definida por ax1 + bx2− c = 0 (em outras
palavras, f(y) é a norma da projeção de y em S), e portanto
f(y) =
|ay1 + by2 − c|√
a2 + b2
.
Para x, y ∈ S e λ ∈ [0, 1], temos:
f(λx+ (1− λ)y) = |a(λx1 + (1− λ)y1) + b(λx2 + (1− λ)y2)− c|√
a2 + b2
=
|λ(ax1 + bx2) + (1− λ)(ay1 + by2)− (λ+ (1− λ))c|√
a2 + b2
=
|λ(ax1 + bx2 − c) + (1− λ)(ay1 + by2 − c)|√
a2 + b2
≤ λ |ax1 + bx2 − c|√
a2 + b2
+ (1− λ) |ay1 + by2 − c|√
a2 + b2
(desig. triang.)
= λf(x) + (1− λ)f(y)
Logo, como x, y, λ foram escolhidos arbitrariamente, f é convexa.
1.4 Capítulo 4 - Modelo de algoritmo com buscas dire-
cionais
4.1 Considere a função quadrática f(x) = 1
2
xtAx + btx + c = 1
2
< x,Ax >
+ < b, x > +c, onde A ∈ Rn×n é simétrica, b ∈ Rn e c ∈ R. Seja x˜
minimizador local de f . Prove que x˜ é minimizador global.
Como calculado no exercício 1.16 b), temos que ∇f(x) = Ax + b e
∇2f(x) = A. Como x˜ é minimizador local de f , temos que ∇f(x˜) =
Ax˜+ b = 0⇒ b = −Ax˜. Portanto, f pode ser reescrita como:
42
f(x) =
1
2
< x,Ax > + < b, x > +c
=< x,
1
2
Ax > + < −Ax˜, x > +c
=< x,
1
2
Ax− Ax˜ > +c
=< x,A(
1
2
x− x˜) > +c
Logo, para x ∈ Rn:
f(x)− f(x˜) = 1
2
< x,Ax > + < b, x > +�c−
1
2
< x˜,Ax˜ > − < b, x˜ > −�c
=< x,
1
2
Ax > + < b, x > + < x˜,−1
2
Ax˜ > + < −b, x˜ >
=< x,
1
2
Ax > + < b, x > + < −x˜, 1
2
Ax˜ > + < b,−x˜ >
=< x,
1
2
Ax > + < −Ax˜, x > + < −x˜, 1
2
Ax˜ > + < −Ax˜,−x˜ >
=< x,
1
2
Ax > + < −Ax˜, x > + < −x˜, 1
2
Ax˜− Ax˜ >
=< x,
1
2
Ax > + < −Ax˜, x > + < −x˜,−1
2
Ax˜ >
=< x,
1
2
Ax > +
1
2
< −Ax˜, x > +1
2
< −Ax˜, x > + < −x˜,−1
2
Ax˜ >
=< x,
1
2
Ax > + < x,−1
2
Ax˜ > + < −x, 1
2
Ax˜ > + < −x˜,−1
2
Ax˜ >
(< −x, 1
2
Ax˜ >= −1
2
n∑
i=1
n∑
j=1
aijxix˜j =< −x˜, 1
2
Ax > pois A é simétrica)
=< x,
1
2
Ax > + < x,−1
2
Ax˜ > + < −x˜, 1
2
Ax > + < −x˜,−1
2
Ax˜ >
=< x− x˜, 1
2
Ax− 1
2
Ax˜ >
=
1
2
< x− x˜, A(x− x˜) >
Ainda, como x˜ é minimizador local de f , para todo x ∈ Rn existe ε > 0
tal que:
43
0 ≤ f(x˜+ ε(x− x˜))− f(x˜)
=< x˜+ ε(x− x˜), A(1
2
[x˜+ ε(x− x˜)]− x˜) > +�c− < x˜,A(
1
2
x˜− x˜) > −�c
=< x˜+ εx− εx˜,−1
2
Ax˜+
1
2
εAx− 1
2
εAx˜ > − < x˜,−1
2
Ax˜ >
=< x˜+ ε(x− x˜),−1
2
Ax˜+
1
2
εA(x− x˜) > − < x˜,−1
2
Ax˜ >
=���
���
��
< x˜,−1
2
Ax˜ >+ < x˜,
1
2
εA(x− x˜) > + < ε(x− x˜),−1
2
Ax˜ > + < ε(x− x˜), 1
2
εA(x− x˜) >
−�����
���
< x˜,−1
2
Ax˜ >
=
1
2
ε < x˜, A(x− x˜) > −1
2
ε < x− x˜, Ax˜ > +ε
2
2
< x− x˜, A(x− x˜) >
=���
���
��1
2
ε < x˜, Ax >−XXXXXXXX
1
2
ε < x˜, Ax˜ >−�����
���1
2
ε < x,Ax˜ >+
XXXXXXXX
1
2
ε < x˜, Ax˜ >
+
ε2
2
< x− x˜, A(x− x˜) >
=
ε2
2
< x− x˜, A(x− x˜) >
Daí segue que < x − x˜, A(x − x˜) >≥ 0. Como f(x) − f(x˜) = 1
2
<
x − x˜, A(x − x˜) >, temos também que f(x) − f(x˜) ≥ 0 para todo
x ∈ Rn. Portanto, x˜ é minimizador global de f .
4.2 Através de um desenho mostre que se d é uma direção tal que∇tf(x)d =
0 então d pode ser de descida, subida ou nenhuma das duas coisas.
No desenho a seguir, temos ∇tf(x)d1 = 0 e ∇tf(x)d2 = 0 (pois são
duas direções ortogonais a ∇f(x)), mas d1 é direção de descida (pois
vai na direção de curvas de nível de valor mais baixo de f) e d2 é direção
de subida (pois vai na direção de curvas de nível de valor mais alto de
f)
44
Um caso em que d não é direção de descida e nem de subida ocorre
quando as curvas de nível de f são paralelas. Quando isso ocorre, as
direções perpendiculares a ∇f(x) levam apenas a pontos da mesma
curva de nível de x, e.g., quando f(x, y) = x+ y:
4.3 Considere o sistema não linear
fi(x) = 0, fi : R
n → R, i = 1, . . . ,m.
Como resolveria o sistema com técnicas de minimização irrestrita?
Seja F : Rm → R tal que, para todo i = 1, . . . ,m, temos que ∂F
∂xi
= fi
(ou seja, ∇F (x1, . . . , xm) = (f1, . . . , fm)). Logo, utilizando técnicas de
minimização irrestrita podemos tentar encontrar um ponto xk ∈ Rm
tal que ∇F (xk) = 0. Temos três casos:
• se m = n, então xk ∈ Rn. Como ∇F = (f1, . . . , fm), então segue
que fi(x
k) = 0 para todo i = 1, . . . ,m;
• se m < n (há mais variáveis que equações), então seria necessá-
rio descobrir as n − m variáveis livres do sistema, escrevendo-as
45
em função das variáveis presentes em xk. Dessa forma, podemos
estender xk para um xk
′ ∈ Rn, de tal forma que fi(xk′) = 0 para
todo i = 1, . . . ,m;
• se m > n (há mais equações que variáveis), então podemos res-
tringir xk para um xk
′ ∈ Rn (eliminando as variáveis de xk que
não aparecem no sistema), de tal forma que fi(x
k′) = 0 para todo
i = 1, . . . ,m;
4.4 Seja f(x) = 1
2
‖F (x)‖2, onde F : Rn → Rn, F ∈ C1. Considere o
método iterativo definido por
xk+1 = xk − λk(JF (xk))−1F (xk).
Suponha que JF (x) é não singular para todo x. Prove que se na con-
dição de Armijo usamos α = 0.5, resulta
f(xk+1)
f(xk)
≤ 1− λk
.
Seja F (x) = (F1(x), . . . , Fn(x))
t
, com Fi : R
n → R. Temos então que
f(x) = 1
2
‖F (x)‖22 = 12
n∑
i=1
Fi(x)
2
. Daí segue que:
(∇f(x))k = ∂f
∂xk
=
∂
∂xk
[
1
2
n∑
i=1
Fi(x)
2
]
=
n∑
i=1
Fi(x)
∂Fi
∂xk
(x)
=
n∑
i=1
Fi(x)(JF (x))ik
Logo, ∇tf(x) = F (x)tJF (x)⇒ ∇f(x) = J tF (x)F (x).
Pela definição do método iterativo, temos dk = −(JF (xk))−1F (xk) (ou
seja, dk é a direção de Newton). Nesse caso, como f(x) =
1
2
‖F (x)‖2 ≥ 0
para todo x ∈ Rn, a condição de Armijo fica:
46
f(xk + λkdk) ≤ f(xk) + α∇tf(xk)λkdk
f(xk+1) ≤ f(xk) + 1
2
F (xk)tJF (x
k)λk[−(JF (xk))−1F (xk)]
f(xk+1) ≤ f(xk)− λk
2
F (xk)t JF (x
k)(JF (x
k))−1︸ ︷︷ ︸
=I
F (xk)
f(xk+1) ≤ f(xk)− λk
2
F (xk)tF (xk)︸ ︷︷ ︸
=‖F (xk)‖2
2
f(xk+1)
f(xk)
≤ 1− λk
∥∥F (xk)∥∥2
2
2f(xk)︸ ︷︷ ︸
=1 pois 2f(xk)=‖F (x)‖22
f(xk+1)
f(xk)
≤ 1− λk
4.5 Seja f : R→ R, f ∈ C2, f ′(0) < 0 e f ′′(x) < 0 para todo x ∈ R. Seja
α ∈ (0, 1). Prove que, para todo x > 0,
f(x) ≤ f(0) + αxf ′(0).
Como f ∈ C2, para x > 0, pela fórmula de Taylor com resto de La-
grange existe pelo menos um x¯ ∈ (0, x) tal que:
f(x) = f(0) + xf ′(0) +
f ′′(x¯)
2︸ ︷︷ ︸
<0
x2︸︷︷︸
>0
≤ f(0) + x︸︷︷︸
>0
f ′(0)︸ ︷︷ ︸
<0
(pois
f ′′(x¯)
2
x2 < 0)
≤ f(0) + αxf ′(0) (pois α ∈ (0, 1) e xf ′(0) < 0)
4.6 Se um método de direções de descida com busca linear exata é utilizado
para minimizar uma função quadrática q : Rn → R, mostre que o passo
ótimo é dado por
λ = − d
t∇q(x)
dt∇2q(x)d,
47
onde d é a direção utilizada a partir do ponto x.
Consideremos a função quadrática q(x) = 1
2
xtAx + btx + c = 1
2
<
x,Ax > + < b, x > +c, onde A ∈ Rn×n simétrica, b ∈ Rn e c ∈ R.
Pelo exercício 1.16)b), sabemos que ∇q(x) = Ax+ b e ∇2q(x) = A .
Seja x o ponto atual, e seja d uma direção de descida (i.e.,∇tq(x)d < 0).
Definamos φ(λ) := q(x+ λd). Temos que:
φ(λ) = q(x+ λd)
=
1
2
< x+ λd,A(x+ λd) > + < b, x+ λd > +c
=
1
2
[< x,Ax > + < x,Aλd > + < λd,Ax > + < λd,Aλd >]+ < b, x > + < b, λd > +c
=
1
2
[< x,Ax > +λ < x,Ad > +λ < d,Ax > +λ2 < d,Ad >]+ < b, x > +λ < b, d > +c
A busca linear exata escolhe o tamanho do passo λ que minimiza φ(λ).
Os pontos estacionários de φ(λ) são dados por:
48
0 = φ′(λ)
0 =
1
2
[< x,Ad > + < d,Ax > +2λ < d,Ad >]+ < b, d >
−2 < b, d > =< x,Ad > + < d,Ax> +2λ < d,Ad >
2λ < d,Ad > = −[2 < b, d > + < x,Ad > + < d,Ax >]
λ < d,Ad > = −[< b, d > +1
2
< x,Ad > +
1
2
< d,Ax >]
λ < d,Ad > = −[< b, d > +1
2
< x,Ad > + < d,
1
2
Ax >]
λ < d,Ad > = −[< x, 1
2
Ad > + < d,
1
2
Ax+ b >]
(< x,
1
2
Ad > =< d,
1
2
Ax > pois A é simétrica)
λ < d,Ad > = −[< d, 1
2
Ax > + < d,
1
2
Ax+ b >]
λ < d,Ad > = −[< d,Ax+ b >]
λ = −< d,Ax+ b >
< d,Ad >
λ = −d
t(Ax+ b)
dtAd
λ = − d
t∇q(x)
dt∇2q(x)d
Seja λ∗ = − dt∇q(x)
dt∇2q(x)d . Calculando a derivada segunda de φ em λ
∗
,
obtemos:
φ′′(λ∗) =< d,Ad >
= dtAd (> 0 se A for definida positiva)
Logo, para A simétrica definida positiva (nesse caso, λ∗ é o mínimo de
φ(λ)), o passo ótimo é dado por λ∗ = − dt∇q(x)
dt∇2q(x)d .
4.7 O critério de decréscimo suficiente (condição de Armijo) exige λ ∈ R
tal que
ϕ(λ) = f(x+ λd) < f(x) + αλ∇tf(x)d = ϕ(0) + αλϕ′(0), (∗)
49
com α ∈ (0, 1). Se f é uma função quadrática, então ϕ é uma pará-
bola. Prove que se o minimizador λ˜ dessa parábola é admissível em (∗)
devemos ter α ∈ (0, 1
2
).
Consideremos a função quadrática f(x) = 1
2
xtAx + btx + c = 1
2
<
x,Ax > + < b, x > +c, onde A ∈ Rn×n simétrica definida positiva,
b ∈ Rn e c ∈ R.
Pelo exercício 1.16)b), sabemos que ∇f(x) = Ax+ b e ∇2f(x) = A .
Seja x o ponto atual, e seja d uma direção de descida (i.e., ∇tf(x)d <
0). Definindo ϕ(λ) := f(x + λd), pelo exercício 4.6 sabemos que o
minimizador de ϕ(λ) é λ˜ = −<d,Ax+b>
<d,Ad>
.
Também pelo exercício 4.6, sabemos que
50
ϕ(λ) =
1
2
[< x,Ax > +λ < x,Ad > +λ < d,Ax > +λ2 < d,Ad >]
+ < b, x > +λ < b, d > +c
= λ2
a′︷ ︸︸ ︷
[
1
2
< d,Ad >] +λ
b′︷ ︸︸ ︷
[
1
2
(< x,Ad > + < d,Ax >)+ < b, d >]
+
c′︷ ︸︸ ︷
1
2
< x,Ax > + < b, x > +c
⇒
ϕ(0) =
1
2
< x,Ax > + < b, x > +c
e
ϕ(λ˜) =
−∆
4a′
=
−(b′2 − 4a′c′)
4a′
=
4a′c′ − b′2
4a′
= c′ − b
′2
4a′
=
1
2
< x,Ax > + < b, x > +c− [
1
2
(< x,Ad > + < d,Ax >)+ < b, d >]2
4(1
2
< d,Ad >)
(< x,Ad >=< d,Ax > pois A é simétrica)
=
1
2
< x,Ax > + < b, x > +c− [< d,Ax > + < b, d >]
2
2 < d,Ad >
=
1
2
< x,Ax > + < b, x > +c− < d,Ax+ b >
2
2 < d,Ad >
e que
51
ϕ′(λ) =
1
2
[< x,Ad > + < d,Ax > +2λ < d,Ad >]+ < b, d >
⇒
ϕ′(0) =
1
2
[< x,Ad > + < d,Ax >]+ < b, d >
(< x,Ad >=< d,Ax > pois A é simétrica)
=< d,Ax > + < b, d >
=< d,Ax+ b >
Se λ˜ satisfaz a condição de Armijo, temos que:
ϕ(λ˜) < ϕ(0) + αλ˜ϕ′(0)
((((
((((
((((
((1
2
< x,Ax > + < b, x > +c− < d,Ax+ b >
2
2 < d,Ad >
<
((((
((((
((((
((1
2
< x,Ax > + < b, x > +c+ α(−< d,Ax+ b >
< d,Ad >
) < d,Ax+ b >
((((
((((< d,Ax+ b >2
2
XXXXX< d,Ad >
> α(
((((
(((
< d,Ax+ b >2
XXXXX< d,Ad >
1
2
> α
Pela proposição 4.1 (p.21 do livro da Ana) sabemos que α > 0, e pela
inequação anterior se λ˜ satisfaz a condição de Armijo então α < 1
2
.
Logo, se λ˜ satisfaz a condição de Armijo, então α ∈ (0, 1
2
).
4.8 Sejam f : Rn → R, x, d ∈ Rn e λ > 0 tal que x+λd satisfaz a condição
de Armijo. Seja 0 < µ < λ. µ satisfaz a condição de Armijo? Prove ou
dê um contraexemplo.
Como a condição de Armijo é satisfeita para x+ λd, temos:
f(x+ λd)︸ ︷︷ ︸
φ(λ):=
< f(x) + αλ∇tf(x)d︸ ︷︷ ︸
s(λ):=
= φ(0) + αλφ′(0)
Supondo que d seja direção de descida, temos também que:
52
αλ∇tf(x)d < 0
µ satisfaz a condição de Armijo apenas se:
f(x+ µd) < f(x) + αµ∇tf(x)d
φ(µ) < φ(0) + αµφ′(0)
φ(µ) < φ(0) + αφ′(0)(µ− 0) (∗)
Logo, em particular, se φ(λ) for uma função convexa no intervalo [0, µ]
e se φ′(0) > 0, teremos que:
φ(µ) ≥ φ(0) + φ′(0)(µ− 0)
(como φ′(0)(µ− 0) > 0 e α ∈ (0, 1), temos)
φ(µ) ≥ φ(0) + αφ′(0)(µ− 0)
Nesse caso, temos então que a inequação (∗) não é satisfeita, e portanto
µ não satisfaz a condição de Armijo.
Uma ilustração de um contraexemplo aparece a seguir. Nesse exemplo,
temos que λ = t é admissível (satisfaz a condição de Armijo), mas
λ = βs não é (e temos que 0 < βs < t):
53
4.9 Sejam f : Rn → R, f ∈ C2 e x¯ ∈ Rn tal que ∇f(x¯) = 0 e ∇2f(x¯) não
é semidefinida positiva. Prove que existe uma direção de descida d em
x¯.
Como ∇2f(x¯) não é semidefinida positiva, então existe d ∈ Rn tal que
dt∇2f(x¯)d < 0.
Como dt∇2f(x¯)d < 0, então escolhamos d′ pequeno o suficiente tal que
d′t∇2f(x¯ + εd′)d′ < 0 para todo ε ∈ (0, 1). Pela fórmula de Taylor de
segunda ordem, temos que existe ε ∈ (0, 1) tal que
f(x¯+ d′) = f(x¯) +∇tf(x¯)d′ + 1
2
d′t∇2f(x¯+ εd′)d′
f(x¯+ d′)− f(x¯) =������:
0∇tf(x¯)d′ + 1
2
d′t∇2f(x¯+ εd′)d′
=
1
2
<0︷ ︸︸ ︷
d′t∇2f(x¯+ εd′)d′
< 0
Logo, como f(x¯ + d′) − f(x¯) < 0, d′ é uma direção de descida para f
em x¯.
4.10 No processo de minimizar uma função f : Rn → R, f ∈ C1, a iteração
xk foi obtida fazendo uma busca linear ao longo da direção dk−1. De-
termine uma direção dk ortogonal a dk−1, de descida a partir de xk e
que seja uma combinação linear de dk−1 e ∇f(xk).
Como xk foi obtida fazendo uma busca linear ao longo da direção dk−1,
então existe λk−1 > 0 tal que xk = xk−1 + λk−1dk−1.
Como dk é uma combinação linear de dk−1 e ∇f(xk), então existem
a, b ∈ R tal que dk = adk−1 + b∇f(xk).
Como dk é ortogonal a dk−1, temos:
54
(dk)tdk−1 = 0
(adk−1 + b∇f(xk))tdk−1 = 0
(a(dk−1)t + b∇tf(xk))dk−1 = 0
a(dk−1)tdk−1 + b∇tf(xk)dk−1 = 0
a
∥∥dk−1∥∥2
2
+ b∇tf(xk)dk−1 = 0
a = −b∇
tf(xk)dk−1
‖dk−1‖22
Observemos que, pela desigualdade de Cauchy-Schwarz, para quaisquer
u, v ∈ Rn temos :
(utv)2 ≤ ‖u‖22 ‖v‖22
(para u = ∇f(xk) e v = dk−1)
(∇tf(xk)dk−1)2 ≤ ∥∥∇f(xk)∥∥2
2
∥∥dk−1∥∥2
2
(∇tf(xk)dk−1)2
‖dk−1‖22
− ∥∥∇f(xk)∥∥2
2
≤ 0
∥∥∇f(xk)∥∥2
2
− (∇
tf(xk)dk−1)2
‖dk−1‖22
≥ 0 (> 0 se ∇f(xk) e dk−1 forem L.I.)
55
Além disso, como dk é direção de descida para f a partir de xk, temos:
∇tf(xk)dk < 0
∇tf(xk)(adk−1 + b∇f(xk)) < 0
a∇tf(xk)dk−1 + b∇tf(xk)∇f(xk) < 0
−b∇
tf(xk)dk−1
‖dk−1‖22
∇tf(xk)dk−1 + b ∥∥∇f(xk)∥∥2
2
< 0
−b(∇
tf(xk)dk−1)2
‖dk−1‖22
+ b
∥∥∇f(xk)∥∥2
2
< 0
b
≥0 por Cauchy-Schwarz︷ ︸︸ ︷∥∥∇f(xk)∥∥2
2
− (∇
tf(xk)dk−1)2
‖dk−1‖22
< 0
(se ∇f(xk) e dk−1 forem L.I.)
b < 0
Portanto, temos que a direção dk desejada é dada por
dk = −b∇
tf(xk)dk−1
‖dk−1‖22
dk−1 + b∇f(xk)
, sendo b algum número real negativo (supondo que ∇f(xk) e dk−1 são
L.I.).
4.11 Sejam f : Rn → R, x¯ ∈ Rn com ∇f(x¯) 6= 0. Seja M ∈ Rn×n definida
positiva. Prove que d = −M∇f(x¯) é uma direção de descida em x¯.
Como M é definida positiva, temos d′tMd′ > 0 para todo 0 6= d′ ∈ Rn.
Em particular, para d′ = ∇f(x¯) 6= 0, segue que:
d′tMd′ > 0
∇tf(x¯)M∇f(x¯) > 0
∇tf(x¯)[−M∇f(x¯)] < 0
∇tf(x¯)d < 0
Logo, d = −M∇f(x¯) é uma direção de descida para f em x¯.
56
1.5 Capítulo 5 - Ordem de convergência
5.1 Prove que convergência superlinear implica linear.
Suponhamos que {xk} ⊆ Rn seja uma sequência que converge superli-
nearmente a x∗, isto é:
lim
k→∞
ek+1
ek
= lim
k→∞
∥∥xk+1 − x∗∥∥
‖xk − x∗‖ = 0
Da definição de limite de sequência, para todo ε > 0 (em particular
para ε ∈ (0, 1)) existe um natural k0 tal que se k > k0 então:
∥∥∥∥ek+1ek − 0
∥∥∥∥ < ε∥∥∥∥∥
∥∥xk+1 − x∗∥∥
‖xk − x∗‖
∥∥∥∥∥ < ε∥∥xk+1 − x∗∥∥
‖xk − x∗‖ < ε∥∥xk+1 − x∗∥∥ < ε∥∥xk − x∗∥∥
ek+1 < εek
Logo, como podemos escolher ε ∈ (0, 1), segue que {xk} converge line-
armente a x∗.
5.2 Prove que convergência quadrática implica superlinear.
Suponhamos que {xk} ⊆ Rn seja uma sequência que converge quadra-
ticamente a x∗, isto é: existem a, k0 > 0 tais que, para k > k0:
57
ek+1 ≤ a(ek)2∥∥xk+1 − x∗∥∥ ≤ a ∥∥xk − x∗∥∥2∥∥xk+1 − x∗∥∥
‖xk − x∗‖ ≤ a
∥∥xk − x∗∥∥
lim
k→∞
∥∥xk+1 − x∗∥∥
‖xk − x∗‖ ≤ limk→∞ a
∥∥xk − x∗∥∥
= a lim
k→∞
∥∥xk − x∗∥∥
= 0
Logo, lim
k→∞
‖xk+1−x∗‖
‖xk−x∗‖ = limk→∞
ek+1
ek
= 0 e, portanto,{xk} converge super-
linearmente a x∗.
5.3 Mostre que uma sequência pode convergir linearmente com uma norma
mas não com outra. No entanto, a convergência superlinear é indepe-
dente da norma.
não resolvido
1.6 Capítulo 6 - Métodos clássicos de descida
6.1 Seja f : Rn → R, diferenciável em x¯ e sejam d1, . . . , dn ∈ Rn vetores
linearmente independentes. Suponha que o mínimo de f(x¯+ λdj) com
λ ∈ R ocorra em λ = 0 para j = 1, . . . , n. Prove que ∇f(x¯) = 0. Isso
implica que f tem um mínimo local em x¯ ?
Definamos φj(λ) := f(x¯ + λd
j). Pela regra da cadeia, temos φ′j(λ) =
∇tf(x¯ + λdj)dj. Como o mínimo de φj(λ) ocorre em λ = 0 para
j = 1, . . . , n, então para todo j = 1, . . . , n segue que:
φ′j(0) = 0
∇tf(x¯+ 0dj)dj = 0
∇tf(x¯)dj = 0
Ou seja, ∇f(x¯) é ortogonal a cada vetor dj (para todo j = 1, . . . , n).
Ainda, como {d1, . . . , dn} são n vetores L.I. em Rn, então eles formam
58
uma base de Rn. Portanto, existem k1, . . . , kn ∈ R tal que ∇f(x¯) =
n∑
i=1
kid
i
. Daí vem que:
‖∇f(x¯)‖22 =< ∇f(x¯),∇f(x¯) >
=<
n∑
i=1
kid
i,∇f(x¯) >
=
n∑
i=1
ki< d
i,∇f(x¯) >︸ ︷︷ ︸
=0
= 0
Logo, ‖∇f(x¯)‖2 = 0 ⇒ ∇f(x¯) = 0. Logo, x¯ é um ponto crítico de f ,
mas não necessariamente um mínimo local. Seria possível que existisse
alguma direção d 6∈ {d1, . . . , dn} que fosse uma direção de descida para
f em x¯, e nesse caso x¯ seria um ponto de sela de f .
6.2 Seja f(x) = 1
2
xtAx + btx + c, onde A ∈ Rn×n é simétrica e definida
positiva, b ∈ Rn e c ∈ R. Sejam L1 e L2 duas retas diferentes e
paralelas em Rn, cujo vetor diretor é d. Sejam x1 e x2 minimizadores
de f em L1 e L2, respectivamente. Prove que (x
2 − x1)tAd = 0.
Pelo exercício 1.16)b), temos que ∇f(x) = Ax + b. Como x1 e x2
minimizadores de f em L1 = x1+λd e L2 = x2+λd (respectivamente),
temos que as funções f(x1 + λd) e f(x2 + λd) são ambas minimizadas
para λ = 0. Logo,
∂f(x1 + λd)
∂λ
∣∣∣∣
λ=0
= 0
∇tf(x1 + λd)d|λ=0 = 0
∇tf(x1)d = 0
∂f(x2 + λd)
∂λ
∣∣∣∣
λ=0
= 0
∇tf(x2 + λd)d|λ=0 = 0
∇tf(x2)d = 0
59
Daí vem que
(x2 − x1)tAd =< x2 − x1, Ad >
=< A(x2 − x1), d > (pois A é simétrica)
=< Ax2 − Ax1, d >
=< Ax2 + b− Ax1 − b, d >
=< ∇f(x2)−∇f(x1), d >
=< ∇f(x2), d > − < ∇f(x1), d >
= ∇tf(x2)d−∇tf(x1)d
= 0− 0
= 0
6.3 Seja f : Rn → R, f ∈ C1. Para k = 0, 1, 2, . . ., definimos xk+1 =
xk − λk∇f(xk) onde λk ≥ λ¯ > 0 para todo k ≥ 0. Suponha que
{xk}∞k=0 converge para x¯. Prove que ∇f(x¯) = 0.
O enunciado do exercício não menciona isso, mas suponhamos que λk
seja escolhido de forma a minimizar f(xk−λk∇f(xk)) , restrito a λk ≥ 0
(ou seja, o algoritmo em questão é o método do gradiente descrito no
algoritmo 6.1 da p.33 do livro da Ana). Em outras palavras, o tamanho
do passo é escolhido pela �regra de minimização� (eq 1.10 do Bertsekas,
p. 29).
Portanto, este é um caso particular da proposição 1.2.1 do Bertse-
kas (estacionariedade de pontos limite para métodos do gradiente).
Logo, todo ponto limite de {xk} é um ponto estacionário (e, portanto
∇f(x¯) = 0).
Alternativamente, suponhamos que ∇tf(xk)∇f(xk+1) = 0 (resultado
do exercício 6.4, que será provado logo em seguida). Como f ∈ C1 e
{xk} converge a x¯, temos que {f(xk)} converge a f(x¯). Logo,
‖∇f(x¯)‖22 = lim
k→∞
< ∇f(xk),∇f(xk+1) >
= lim
k→∞
∇tf(xk)∇f(xk+1)
= lim
k→∞
0 (pelo exercício 6.4)
= 0
60
Portanto, ‖∇f(x¯)‖22 = 0⇒ ∇f(x¯) = 0.
6.4 Prove que no método do gradiente com busca linear exata temos que
∇tf(xk)∇f(xk+1) = 0.
Definamos φk(λ) := f(x
k − λ∇f(xk)). Como λk minimiza φk(λ), pela
regra da cadeia temos:
φ′k(λk) = 0
∇tf(xk − λk∇f(xk))[−∇f(xk)] = 0
∇tf(xk+1)[−∇f(xk)] = 0
∇tf(xk+1)∇f(xk) = 0
6.5 Seja f : Rn → R, f ∈ C1. Seja y o resultado de aplicarmos uma
iteração do método do gradiente com busca linear exata a partir de x.
Seja z o resultado de aplicarmos uma iteração do método do gradiente
a partir de y. Prove que z − x é uma direção de descida a partir de x.
Das definições de z e y, temos:
y = x− λx∇f(x) (λx ≥ 0 que minimiza φx(λ) = f(x− λ∇f(x)))
z = y − λy∇f(y) (λy ≥ 0 que minimiza φy(λ) = f(y − λ∇f(y)))
Do exercício 6.4, como (x, y) e (y, z) são pares de pontos consecutivos
do método do gradiente com busca linear exata, sabemos que:
∇tf(x)∇f(y) = 0
∇tf(y)∇f(z) = 0
Temos que:
61
∇tf(x)(z − x) = ∇tf(x)z −∇tf(x)x
= ∇tf(x)[y − λy∇f(y)]−∇tf(x)[y + λx∇f(x)]
=���
��∇tf(x)y − λy∇tf(x)∇f(y)−�����∇tf(x)y − λx∇tf(x)∇f(x)
= −λy�����
���:0∇tf(x)∇f(y)− λx∇tf(x)∇f(x)
= −λx ‖∇f(x)‖22
(supondo x não estacionario, temos λx > 0 e ‖∇f(x)‖22 > 0)
< 0 (para x não estacionario)
Logo, como ∇tf(x)(z − x) < 0, z − x é uma direção de descida para f
a partir de x.
6.6 Desenhe as curvas de nível da função f(x) = x21 + 4x
2
2 − 4x1 − 8x2.
Encontre o ponto x¯ que minimiza f . Prove que o método do gradiente,
aplicado a partir de x0 = (0, 0)t não pode convergir para x¯ em um
número finito de passos, se usarmos busca linear exata. Há algum ponto
x0 para o qual o método converge em um número finito de passos?
parcialmente resolvido
Figura 6: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
Temos que f(x) = 1
2
xtAx + btx, onde A =
[
2 0
0 8
]
e b =
[ −4
−8
]
.
Como A é simétrica definida positiva, pelo exercício 1.16)b) temos
∇f(x) = Ax + b. Ainda, pelo exercício 4.1, todo minimizador local
62
de f é um minimizador global. Portanto, é suficiente a condição de
primeira ordem:
∇f(x¯) = 0
Ax¯+ b = 0[
2x1 − 4
8x2 − 8
]
=
[
0
0
]
x¯ =
[
2
1
]
Definamos φ(λ) = f(x + λd), sendo d = −∇f(x) = −Ax − b =[ −2x1 + 4
−8x2 + 8
]
. Pelo exercício 4.6 sabemos que:
φ(λ) = f(x+ λd)
= λ2[
1
2
< d,Ad >] + λ[< d,Ax > + < b, d >] +
1
2
< x,Ax > + < b, x >
= λ2[(4− 2x1)2 + 4(8− 8x2)2]
+ λ[2x1(4− 2x1)− 4(4− 2x1)− 8(8− 8x2) + 8(8− 8x2)x2]
+ (x1 − 4)x1 + x2(4x2 − 8)
Logo, pelo método do gradiente, cada novo ponto é da forma x + λd,
onde λ é o minimizador de φ(λ) (restrito a λ ≥ 0) .
Para x0 = (0, 0)t, φ(λ) é dada por φ(λ) = 272λ2−80λ, cujo minimizador
é λ0 =
−(−80)
2×272 =
5
34
. Logo, x1 = x0 + λ0d0 = (
10
20
, 20
17
)t.
Para x1 = (10
20
, 20
17
)t, φ(λ) é dada por φ(λ) = 4905
289
λ2 − 3177
289
λ− 6503
1156
, cujo
minimizador é λ1 =
353
1090
. Logo, x2 = x1 + λ1d1 = (
802
545
, 392
545
)t.
Para x2 = (802
545
, 392
545
)t, φ(λ) é dada por φ(λ) = 1264896
59405
λ2− 1829952
297025
λ− 4036
545
,
cujo minimizador é λ2 =
353
2440
. Logo, x3 = x2 + λ2d2 = (
270026
166225
, 173569
166225
)t.
.
.
.
6.7 Considere o método do gradiente aplicado à minimização de uma função
quadrática q(x) com hessiana definida positiva G. Seja x¯ a solução e
63
suponha que x0 possa ser escrito como x0 = x¯ + µv, onde v é um
autovetor de G associado ao autovalor λ e µ é um número real. Prove
que ∇q(x0) = µλv e que se for feita uma busca linear exata a partir
de x0 haverá convergência em uma iteração. A partir daí, mostre que
o método do gradiente converge em uma iteração para qualquer x0
sempre que G for da forma αI, com α ∈ R.
Como q(x) é quadrática, q(x) = 1
2
xtGx+btx+c. Pelo exercício 1.16)b),
temos que ∇q(x) = Gx + b e ∇2q(x) = G. Pelo exercício 4.1, todo
minimizador local de f é um minimizador global e, portanto, ∇q(x¯) =
Gx¯ + b = 0 ⇒ Gx¯ = −b. Como v é um autovetor de G associado ao
autovalor λ, então Gv = λv Temos que:
∇q(x0) = Gx0 + b
= G(x¯+ µv) + b
= Gx¯+ µGv + b
= −��b+ µλv + ��b
= µλv
Definamos φ(λ) = q(x0 + λd0), sendo d0 = −∇q(x0) = −Gx0 − b =
−µλv. Pelo exercício 4.6 sabemos que:
φ(λ) = f(x0 + λd0)
= λ2[
1
2
< d0, Gd0 >] + λ[< d0, Gx
0 > + < b, d0 >] +
1
2
< x0, Gx0 > + < b, x0 >
Pelo exercício 4.6, sabemos que o mínimo de φ(λ) é atingido em λ = λ0,
onde
64
λ0 =− d
t
0∇q(x0)
dt0∇2q(x0)d0
= − (−Gx
0 − b)t(Gx0 + b)
(−Gx0 − b)tG(−Gx0 − b)
=
(µλv)t(µλv)
(µλv)tG(µλv)
=
(µλv)t(µλv)
(µλv)tµλ(Gv)
= (
((((
((
(µλv)t(µλv)
λ((((
((((µλv)t(µλv)
=
1
λ
Logo, o próximo ponto x1 é dado por:
x1 = x0 + λ0d0
= x0 +
1
SSλ
(−µSSλv)
= x0 − µv
= x0 − (x0 − x¯)
=��x
0 −��x0 + x¯
= x¯
Portanto, se for feita uma busca linear exata a partir de x0, haverá
convergência em uma iteração.
Consideremos agora o caso G = αI, com α ∈ R, com x0 ∈ Rn .
Definamos φ(λ) = q(x0 + λd0), sendo d0 = −∇q(x0) = −Gx0 − b =
−αx0− b. Pelo exercício 4.6, sabemos que o mínimo de φ(λ) é atingido
em λ = λ0, onde
65
λ0 = − d
t
0∇q(x0)
dt0∇2q(x0)d0
= − (−αx
0 − b)t(αx0 + b)
(−αx0 − b)tαI(−αx0 − b)
= ((
((((
((((((αx0 + b)t(αx0 + b)
α((((
((((
(((
(αx0 + b)t(αx0 + b)
=
1
α
Logo, o próximo ponto x1 é dado por:
x1 = x0 + λ0d0
= x0 +
1
α
(−αx0 − b)
=��x
0 −��x0 − b
α
= − b
α
Como temos que
∇q(x1) = Gx1 + b
=�αI(− b
�α
) + b
= −b+ b
= 0
então x1 é o minimizador de q(x) (a condição necessária de primeira
ordem é também suficiente, pois G = αI é definida positiva) e, portanto
haverá convergência em uma iteração.
6.8 Seja f uma função quadrática com hessiana definida positiva. Prove
que se ao aplicarmos o método do gradiente a partir de um certo x0,
66
∇f(x0) 6= 0, encontramos a solução em uma iteração, então d = x1−x0
é um autovetor da hessiana.
Como f(x) é quadrática, f(x) = 1
2
xtGx+btx+c. Pelo exercício 1.16)b),
temos que ∇f(x) = Gx+ b e ∇2f(x) = G.
Definamos φ(λ) = f(x0 + λd0), sendo d0 = −∇f(x0) = −Gx0 − b 6= 0.
Pelo exercício 4.6, sabemos que o mínimo de φ(λ) é atingido em λ = λ0,
onde
λ0 = − d
t
0∇q(x0)
dt0∇2q(x0)d0
= − (−Gx
0 − b)t(Gx0 + b)
(−Gx0 − b)tG(−Gx0 − b)
=
(Gx0 + b)t(Gx0 + b)
(Gx0 + b)tG(Gx0 + b)
Logo, o próximo ponto x1 é dado por:
x1 = x0 + λ0d0
= x0 +
(Gx0 + b)t(Gx0 + b)
(Gx0 + b)tG(Gx0 + b)
(−Gx0 − b)
= x0 − (Gx
0 + b)t(Gx0 + b)
(Gx0 + b)tG(Gx0 + b)
(Gx0 + b)
Como encontramos a solução em uma iteração, então x1 é a solução e,
portanto, ∇f(x1) = Gx1 + b = 0⇒ Gx1 = −b. Daí segue que:
67
Gd = G(x1 − x0)
= Gx1 −Gx0
= −b−Gx0
= −∇f(x0)
= d0
=
1
λ0
(x1 − x0)
=
1
λ0
d
Logo, d = x1 − x0 é um autovetor de G (que é a hessiana de f) com
autovalor associado
1
λ0
.
6.9 Seja f(x) = 1
2
(x21 − x2)2 + 12(1 − x1)2. Qual é o minimizador de f?
Faça uma iteração do método de Newton para minimizar f a partir de
x0 = (2, 2)t. É um bom passo? Antes de decidir, calcule f(x0) e f(x1).
Como cada parcela de f(x) é sempre não negativa, temos que f(x) ≥
0 para todo x ∈ R2. Como f((1, 1)t) = 0, então x∗ = (1, 1)t é o
minimizador de f .
Calculando as derivadas parciais de f , temos:
∂f
∂x1
= 2x1(x
2
1 − x2) + x1 − 1
∂2f
∂x21
= 2(x21 − x2) + 4x21 + 1
= 6x21 − 2x2 + 1
∂f
∂x2
= −(x21 − x2)
= x2 + x
2
1
∂2f
∂x22
= 1
∂2f
∂x1∂x2
= −2x1
68
Logo,∇f(x) = (2x1(x21−x2)+x1−1, x2+x21)t e∇2f(x) =
[
6x21 − 2x2 + 1 −2x1
−2x1 1
]
.
Para x0 = (2, 2)t, ∇f(x0) = (9, 6)t e ∇2f(x0) =
[
21 −4
−4 1
]
.
Para encontrarmos d0, basta resolver o sistema:
∇2f(x0)d0 = −∇f(x0)[
21 −4
−4 1
]
d0 =
[ −9
−6
]
Logo, d0 = (−335 ,−1625 )t. Seja agora φ(λ) = f(x0 + λd0), e efetuemos a
busca linear com backtracking para a escolha de λ (conforme indicado
no passo 2 do algoritmo 6.2 da p.37 do livro da Ana, e descrito no passo
2 do algoritmo 4.2 da p.27 do livro da Ana).
Como o exercício não indicou qual deve ser o valor de α usado na busca
linear (verificação da condição de Armijo), escolhamos α = 1
2
. Como
f(x0) = 5
2
, as iterações são dadas por:
1.i λ← 1
1.ii f(x0 + λd0) = 1344.9 ≥ −124.4 = f(x0) + αλ∇tf(x0)d0
1.iii λ← λ/2 = 0.5
2.ii f(x0 + λd0) = 128.891 ≥ −60.95 = f(x0) + αλ∇tf(x0)d0
2.iii λ← λ/2 = 0.25
3.ii f(x0 + λd0) = 19.571 ≥ −29.225 = f(x0) + αλ∇tf(x0)d0
3.iii λ← λ/2 = 0.125
4.ii f(x0 + λd0) = 5.89991 ≥ −13.3625 = f(x0) + αλ∇tf(x0)d0
4.iii λ← λ/2 = 0.0625
5.ii f(x0 + λd0) = 3.41149 ≥ −5.43125 = f(x0) + αλ∇tf(x0)d0
5.iii λ← λ/2 = 0.03125
6.ii f(x0 + λd0) = 2.80156 ≥ −1.465625 = f(x0) + αλ∇tf(x0)d0
6.iii λ← λ/2 = 0.015625
69
7.ii f(x0 + λd0) = 2.61641 ≥ 0.5171 = f(x0) + αλ∇tf(x0)d0
7.iii λ← λ/2 = 0.0078125
8.ii f(x0 + λd0) = 2.55 ≥ 1.50 = f(x0) + αλ∇tf(x0)d0
8.iii λ← λ/2 = 0.00390625
9.ii f(x0 + λd0) = 2.52 ≥ 2.00 = f(x0) + αλ∇tf(x0)d0
9.iii λ← λ/2 = 0.001953125
10.ii f(x0 + λd0) = 2.51 ≥ 2.25 = f(x0) + αλ∇tf(x0)d0
10.iii λ← λ/2 = 0.000976563
11.ii f(x0 + λd0) = 2.505 ≥ 2.37 = f(x0) + αλ∇tf(x0)d0
11.iii λ← λ/2 = 0.000488281
12.ii f(x0 + λd0) = 2.502 ≥ 2.43 = f(x0) + αλ∇tf(x0)d0
12.iii λ← λ/2 = 0.000488281
.
.
.
18.ii f(x0 + λd0) = 2.50004 ≥ 2.49903 = f(x0) + αλ∇tf(x0)d0
18.iii λ← λ/2 = 2−18
.
.
.
Numericamente podemos perceber que o algoritmo não converge num
número finito de passos (já que a condição de Armijo simplesmente não
é satisfeita), mas suponhamos que o tamanho do passo escolhido seja
λ0 = 2
−17
(esse é o tamanho do passo usado na iteração 18).
Temos então que x1 = x0 + λ0d0 = (
1310687
655360
, 655279
327680
)t. Daí vem que
f(x1) ≈ 2.50004, sendo que f(x0) = 2.5. Logo, esse não é um bom
tamanho de passo, já que está muito longe do minimizador (além de x1
ter praticamente o mesmo valor da função objetivo em x0).
6.10 Considere o método de Newton aplicado para achar o minimizador de
f(x) = sin(x) a partir de x0 ∈ [−pi, pi]. A resposta desejada é x¯ = −pi2 .
Seja ε > 0 suficientemente pequeno. Prove que se x0 = −ε então
x1 ' −1ε . Analogamente, o que acontece se x0 = ε, mas f ′′(x0) é
substituída por um número positivo pequeno?
70
Pelas expansões em série de Taylor em torno de x = 0, temos que
f ′(x) = cos(x) = 1− x
2
2!
+
x4
4!
− x
6
6!
+ . . .
f ′′(x) = − sin(x) = −x+ x
3
3!
− x
5
5!
+
x7
7!
− . . .
Para x0 = −ε, f ′(x0) ≈ 1 e f ′′(x0) ≈ −x0 = ε.
Para encontrarmos d0, basta resolver o sistema:
f ′′(x0)d0 = −f ′(x0)
εd0 ≈ −1
d0 ≈ −1
ε
Para algum valor de λ0 (obtido via busca linear), temos então que:
x1 = x0 + λ0d0
≈ −ε+ λ0(−1
ε
)
(para ε > 0 suficientemente pequeno)
≈ −1
ε
Se x0 = ε, mas f
′′(x0) é substituída por um número positivo pequeno
(digamos, ε′ > 0), a direção é dada por:
f ′′(x0)d0 = −f ′(x0)
ε′d0 ≈ −1
d0 ≈ − 1
ε′
Para algum valor de λ0 (obtido via busca linear), temos então que:
71
x1 = x0 + λ0d0
≈ ε+ λ0(− 1
ε′
)
(para ε, ε′ > 0 suficientemente pequenos)
≈ − 1
ε′
Portanto, assim como no caso anterior, obtemos x1 ≈ − 1
ε′ .
Isso mostra que o método de Newton teria problemas nesses casos, já
que sairíamos de un número pequeno |x0| = ε ≈ 0 para um número
negativo grande −1
ε
(o que não é desejável, já que o minimizador x¯ =
−pi
2
é o ponto médio do intervalo [−pi, 0] ).
6.11 O método de Newton pode convergir para um maximizador local! Para
verificar esta afirmação, use o método de Newton para minimizar a
função f(x) = −x4
4
+ x
3
3
+ x2 a partir de x0 = 1 e tomando λ0 = 1. O
que acontece com o método de Newton quando aplicado à minimização
de f(x) = x
3
3
+ x (equivalente a calcular os zeros de f ′(x) = x2 + 1) ?
As primeira e segunda derivadas de f são dadas por:
f ′(x) = −x3 + x2 + 2x
f ′′(x) = −3x2 + 2x+ 2
Os pontos estacionários são dados por:
f ′(x) = 0
−x3 + x2 + 2x = 0
x(−x2 + x+ 2) = 0
x ∈ {−1, 0, 2}
Cada um dos pontos estacionários é tal que:
72
f ′′(−1) = −3 < 0⇒ x = −1 é máximo local
f ′′(0) = 2 > 0⇒ x = 0 é mínimo local
f ′′(2) = −6 < 0⇒ x = 2 é máximo local
Para encontrarmos d0 (do método de Newton), basta resolver o sistema:
f ′′(x0)d0 = −f ′(x0)
f ′′(1)d0 = −f ′(1)
d0 = −2
Para λ0 = 1, temos então que:
x1 = x0 +λ0d0
= 1 + 1(−2)
= −1
Como f ′(x1) = f ′(−1) = 0, então o método de Newton converge para
x = −1 (que é um máximo local, como já verificado acima).
Consideremos agora a função f(x) = x2 + 1 ⇒ f ′(x) = 2x. Os zeros
dessa função não são números reais, já que x2 + 1 = 0⇒ x = ±i. Con-
siderando a versão do método de Newton para achar zeros de funções,
enquanto |xn − xn+1| ≥ ε, encontramos o próximo ponto pela equação:
xn+1 = xn − f(xn)
f ′(xn)
= xn − x
2
n + 1
2xn
A partir de x0 = 1, temos então que:
73
x1 = 0
x2 →∞
e o método diverge. Tal comportamento iria ocorrer para qual ponto
inicial, ja que como o ponto inicial é um número real, os pontos se-
guintes também serão números reais, e portanto não há como haver
convergência para qualquer uma das raízes de f(x) = x2 + 1 (pois
ambas as raízes são não reais).
6.12 Seja f(x) = x41 + x1x2 + (1 + x2)
2
. Para x0 = (0, 0)t, por que o método
de Newton não pode ser aplicado satisfatoriamente? Se a direção d0 =
−(∇2f(x0))−1∇f(x0) é usada, mostre que nem d0 nem −d0 são direções
de descida.
As derivadas parciais são dadas por:
∂f
∂x1
= 4x31 + x2
∂2f
∂x21
= 12x21
∂f
∂x2
= x1 + 2 + 2x2
∂2f
∂x22
= 2
∂2f
∂x1∂x2
= 1
Logo,∇f(x) = (4x31 + x2, x1 + 2 + 2x2)t e ∇2f(x) =
[
12x21 1
1 2
]
.
Os pontos estacionários são tais que :{
4x31 + x2 = 0
x1 + 2 + 2x2 = 0
⇒
{
x2 = −4x31
x1 + 2− 8x31 = 0
⇒
x2 = − 13456
(
3
√
1728− 48√1290 + 2 3
√
6(36 +
√
1290)
)3
≈ −1.34794
x1 =
1
24
(
3
√
1728− 48√1290 + 2 3
√
6(36 +
√
1290)
)
≈ 0.69588
74
Seja x∗ = ( 1
24
(
3
√
1728− 48√1290 + 2 3
√
6(36 +
√
1290)
)
,
− 1
3456
(
3
√
1728− 48√1290 + 2 3
√
6(36 +
√
1290)
)3
)t ≈ (0.69588,−1.34794)t.
Temos então que:
∇2f(x∗) =
[
12(x∗1)
2 1
1 2
]
⇒ det(∇2f(x∗)) ≈ 14.70 > 0
∂2f
∂x21
(x∗) = 8.35 > 0
Logo, pelo teste da derivada segunda, x∗ é ponto de mínimo local. Mais
ainda, x∗ também é ponto de mínimo global, pois ∅ 6= R2 é fechado, f
é contínua e f é coerciva em R2.
Para x0 = (0, 0)t, a direção d0 é tal que:
∇2f(x0)d0 = −∇f(x0)[
0 1
1 2
]
d0 =
[
0
−2
]
Logo, d0 = (−2, 0)t. Daí vem que
∇tf(x0)d0 = (0, 2)t(−2, 0)
= 0
Analogamente,
∇tf(x0)(−d0) = (0, 2)t(2, 0)
= 0
75
Portanto, nem d0 e nem −d0 são direções de descida. Isso acontece
pois ∇2f(x0) =
[
0 1
1 2
]
é indefinida (possui um autovalor negativo e
um positivo). Para que d0 fosse direção de descida, seria necessário que
∇2f(x0) fosse definida positiva, que é o que acontece quando x0 está
próximo da solução (o que não é o caso, pois x0 = (0, 0)t e a solução é
x∗ = (0.69588,−1.34794)t ).
6.13 No método de Newton é necessário que a matriz hessiana seja definida
positiva. Na prática devemos modificar o método quando falha essa
hipótese. Uma ideia é tomar
Mk = (∇2f(xk) + µkI)−1, µk > 0,
dk = −Mk∇f(xk).
(a) Quais são os valores aceitáveis de µk para garantir que o método
gere direções de descida?
Observemos que, se f ∈ C2, ∇2f(xk) será simétrica e portantoMk
será simétrica (pois a inversa de uma matriz simétrica é simétrica).
Temos que
dk = −Mk∇f(xk)
−(Mk)−1dk = ∇f(xk)
−(∇2f(xk) + µkI)dk = ∇f(xk)
−(dk)t(∇2f(xk) + µkI)dk = (dk)t∇f(xk)
Portanto, para que dk seja direção de descida, temos que:
(dk)t∇f(xk) < 0
−(dk)t(∇2f(xk) + µkI)dk < 0
(dk)t(∇2f(xk) + µkI)dk > 0
Logo, (Mk)−1 = ∇2f(xk) + µkI precisa ser definida positiva, i.e.,
todos os seus autovalores precisam ser positivos. Observemos que
somar µkI a ∇2f(xk) aumenta cada autovalor de ∇2f(xk) em
76
µk unidades (pois ∇2f(xk)v = λv ⇐⇒ (∇2f(xk) + µkI)v =
(λ+ µk)v).
Portanto, se λ1 for o menor dos autovalores de ∇2f(xk) e se ε > 0,
então temos que (Mk)−1 = ∇2f(xk) + µkI será definida positiva
se µk = |λ1|+ ε (para todo ε > 0).
(b) Que método é esse quando µ→∞?
Se µk → ∞, então quando k → ∞ temos Mk = (∇2f(xk) +
µkI)
−1 ≈ (µkI)−1 = 1µk I e portanto dk = −Mk∇f(xk) ≈ − 1µk I∇f(xk).
Assim (pela p. 38 do livro da Ana), assintoticamente esse seria
um método do gradiente �escalado� pelo fator
1
µk
.
6.14 Seja f(x) =
n∑
i=1
(aix
2
i + bixi) com a1, . . . , an e b1, . . . , bn constantes reais.
Encontre condições suficientes para que a direção utilizada pelo método
de Newton esteja bem definida e seja de descida para qualquer x tal
que ∇f(x) 6= 0.
As derivadas parciais são dadas por:
∂f
∂xi
= 2aixi + bi
∂2f
∂x2i
= 2ai
∂2f
∂xi∂xj
= 0
Logo,∇f(x) = (2a1x1+b1, . . . , 2anxn+bn)t e∇2f(x) = diag(2a1, . . . , 2an).
Como ∇f(x) 6= 0, temos então 2aixi + bi 6= 0 para todo i = 1, . . . , n.
A direção d do método de Newton é tal que:
dt∇2f(x) = −∇tf(x)
−dt∇2f(x)d = ∇tf(x)d
Logo, para que d seja bem definida (i.e., para que os sistema acima
tenha solução única) e seja de descida, precisamos que:
77
∇tf(x)d < 0
−dt∇2f(x)d < 0
dt∇2f(x)d > 0
Portanto, é suficiente que ∇2f(x) = diag(2a1, . . . , 2an) seja definida
positiva, i.e., todos os seus autovalores sejam positivos. Ser definida
positiva também assegura que d está bem definido, pois toda matriz
definida positiva é não singular. Como ∇2f(x) é diagonal, seus auto-
valores são os próprios elementos da diagonal. Portanto, a condição a
ser satisfeita é:
2ai > 0 ∀i = 1, . . . , n
ai > 0 ∀i = 1, . . . , n
6.15 Prove que A = vvt onde 0 6= v ∈ Rn tem posto 1.
Como cada linha de A = uut é um múltiplo de ut, todas as linhas são
geradas pelo mesmo vetor ut. Logo, a dimensão do espaço gerado pelas
linhas de A é 1 (ou seja, posto(A) = 1).
6.16 Seja 0 6= s ∈ Rn. Prove que
∥∥∥I − sststs∥∥∥ = 1.
Obs.: resposta diferente da do enunciado, mas resolvido
Seja S = sst. Temos que sij = sisj e s
ts =
∑n
k=1 s
2
k. Daí segue que:
78
∥∥∥∥I − sststs
∥∥∥∥ = ∥∥∥∥ 1sts(stsI − sst)
∥∥∥∥
=
∥∥∥∥ 1stsB
∥∥∥∥(
onde bij =
{
−s2i +
∑n
k=1 s
2
k =
∑
k 6=i s
2
k se i = j
−sisj se i 6= j
)
=
1
sts
‖B‖
(supondo que ‖·‖ = ‖·‖F , temos)
=
1
sts
√√√√ n∑
i=1
n∑
j=1
b2ij
=
1
sts
√√√√∑
i 6=j
s2i s
2
j +
n∑
i=1
[−s2i +
n∑
j=1
s2j ]
2
=
1
sts
√√√√ n∑
i=1
n∑
j=1
s2i s
2
j −
n∑
i=1
s2i s
2
i +
n∑
i=1
[s4i − 2s2i
n∑
j=1
s2j + (
n∑
j=1
s2j)
2]
=
1
sts
√√√√√ZZZ
Z
Z
ZZ
n∑
i=1
n∑
j=1
s2i s
2
j −
�
�
�
�n∑
i=1
s4i +
�
�
�
�n∑
i=1
s4i − A2
n∑
i=1
n∑
j=1
s2i s
2
j +
n∑
i=1
(
n∑
j=1
s2j)
2
=
1
sts
√
−‖S‖2F + n(sts)2
Sendo que
79
‖S‖2F =
n∑
i=1
n∑
j=1
s2i s
2
j
=
n∑
i=1
s2i (
n∑
j=1
s2j)
=
n∑
i=1
s2i s
ts
= sts
n∑
i=1
s2i
= stssts
= (sts)2
Logo,
∥∥∥∥I − sststs
∥∥∥∥ = 1sts
√
−‖S‖2F + n(sts)2
=
1
sts
√
−(sts)2 + n(sts)2
=
1
sts
√
(n− 1)(sts)2
=
sts
sts
√
n− 1
=
√
n− 1
6.17 Sejam u, v ∈ Rn e suponha que A ∈ Rn×n é não singular. Seja B =
A + uvt. Se σ = 1 + vtA−1u 6= 0, verifique a fórmula de Sherman-
Morrison:
B−1 = A−1 − 1
σ
A−1uvtA−1.
Para verificar a fórmula, precisamos verificar se BB−1 = I. Temos que:
80
BB−1 = (A+ uvt)(A−1 − 1
1 + vtA−1u
A−1uvtA−1)
= AA−1 − A
1 + vtA−1u
A−1uvtA−1 + uvtA−1 − uv
t
1 + vtA−1u
A−1uvtA−1
= I − uv
tA−1
1 + vtA−1u
+ uvtA−1 − uv
tA−1uvtA−1
1 + vtA−1u
= I + uvtA−1 − (uv
tA−1 + uvtA−1uvtA−1)
1 + vtA−1u
= I + uvtA−1 − u(((
(((((1 + vtA−1u)vtA−1
((((
((
1 + vtA−1u
= I +���
�
uvtA−1 −����uvtA−1
= I
Portanto, B−1 é de fato a inversa de B, e a fórmula de Sherman-
Morrison é válida.
6.18 Seja H ∈ Rn×n simétrica definida positiva e seja {v1, . . . , vn} uma base
ortonormal de autovetores deH com autovalores associados {λ1, . . . , λn}.
Prove que para g =
n∑
i=1
αiv
i
e µ ≥ 0 temos
(H + µI)−1g =
n∑
i=1(
αi
λi + µ
)
vi.
Pelo teorema espectral, se Λ = diag(λ1, . . . , λn) e V = [v
1, . . . , vn] (i.e.,
a i-ésima coluna de V é o autovetor vi ), então temos que:
H =
n∑
i=1
λiv
i(vi)t = V ΛV T
, com V TV = V V T = I (isto é, V −1 = V t, pois os autovetores são
ortonormais). Como Λ é diagonal, temos que Λ−1 = diag(λ−11 , . . . , λ
−1
n )
Pela identidade de matrizes de Woodbury, para matrizes A, U , C and
V de tamanhos apropriados temos:
81
(A+ UCV )−1 = A−1 − A−1U(C−1 + V A−1U)−1V A−1
Usando essa identidade e o teorema espectral, temos que:
(H + µI)−1 = (µI + V ΛV T )−1 (teorema espectral)
= (µI)−1 − (µI)−1V (Λ−1 + V T (µI)−1V )−1V T (µI)−1(identidade de Woodbury)
=
1
µ
I − 1
µ
IV (Λ−1 + V T
1
µ
IV )−1V T
1
µ
I
=
1
µ
I − 1
µ
V (Λ−1 + V T
1
µ
V )−1V T
1
µ
=
1
µ
I − 1
µ
V (Λ−1 +
1
µ
I︸ ︷︷ ︸
B:=
)−1V T
1
µ
=
(
onde bij =
{
1
λi
+ 1
µ
= λi+µ
λiµ
se i = j
0 se i 6= j
)
=
(
logo b−1ij =
{
λiµ
λi+µ
se i = j
0 se i 6= j
)
=
1
µ
I − 1
µ
V B−1V T
1
µ
Sejam A = diag(α1, . . . , αn), e 1 = (1, . . . , 1)
t
. Temos então que:
g =
n∑
i=1
αiv
i = V A1
Daí vem que:
82
(H + µI)−1g = (
1
µ
I − 1
µ
V B−1V T
1
µ
)V A1
= (
1
µ
I − 1
µ2
V B−1V T )V A1
=
1
µ
V A1− 1
µ2
V B−1V TV A1
=
1
µ
V A1− 1
µ2
V B−1A︸ ︷︷ ︸
C:=
1
=
(
onde Cij =
{
αi
λiµ
λi+µ
se i = j
0 se i 6= j
)
=
1
µ
n∑
i=1
αiv
i − 1
µ�2
n∑
i=1
αi
λi�µ
λi + µ
vi
=
n∑
i=1
(
αi
µ
− αiλi
µ(λi + µ)
)vi
=
n∑
i=1
(
αi(λi + µ)− αiλi
µ(λi + µ)
)vi
=
n∑
i=1
(�
��αiλi + αiµ−���αiλi
µ(λi + µ)
)vi
=
n∑
i=1
(
αi�µ
�µ(λi + µ)
)vi
=
n∑
i=1
(
αi
λi + µ
)vi
6.19 Considere a fórmula DFP. Se Hk é definida positiva mostre que Hk+1
será definida positiva se o passo λk > 0 é tal que (x
k+1−xk)t(∇f(xk+1)−
∇f(xk)) > 0. Prove que, para uma função quadrática qualquer, λk 6= 0
garante a positividade de Hk+1.
Seja f(x) = 1
2
xtAx+btx+c = 1
2
∑n
i=1
∑n
j=1Aijxixj+
∑n
i=1 bixi+c uma
função quadrática, onde A ∈ Rn×n é definida positiva,b ∈ Rn , c ∈ R.
Pelo exercício 1.16)b), temos ∇f(x) = Ax+ b e ∇2f(x) = A.
Pela definição do método DFP (p.p. 40, 41 do livro da Ana), temos
que:
83
dk = −Hk∇f(xk) = −Hk(Axk + b)
pk = x
k+1 − xk = λkdk = −λkHk(Axk + b)
qk = ∇f(xk+1)−∇f(xk) = Axk+1 + ��b− Axk − ��b = A(xk+1 − xk)
Hk+1 = Hk +
pkp
t
k
ptkqk
− Hkqkq
t
kHk
qtkHkqk
Pelo enunciado, temos:
ptkqk > 0
(xk+1 − xk)t(∇f(xk+1)−∇f(xk)) > 0
−(λkHk(Axk + b))tA(xk+1 − xk) > 0
λk(Hk(Ax
k + b))tA(xk+1 − xk) < 0
Se 0 6= d ∈ Rn, pela expressão para Hk+1 temos:
dtHk+1d = d
tHkd+ d
tpkp
t
k
ptkqk
d− dtHkqkq
t
kHk
qtkHkqk
d
= dtHkd+
(dtpk)
2
ptkqk
− (d
tHkqk)
2
qtkHkqk
=
(dtHkd)(q
t
kHkqk)− (dtHkqk)2
qtkHkqk
+
(dtpk)
2
ptkqk
O primeiro termo de dtHk+1d é não negativo pois (d
tHkd)(q
t
kHkqk) −
(dtHkqk)
2 ≥ 0 (pela desigualdade de Cauchy-Schwarz) e qtkHkqk > 0
(pois Hk é definida positiva).
O segundo termo de dtHk+1d é não negativo pois (d
tpk)
2 ≥ 0 e ptkqk =
(xk+1 − xk)t(∇f(xk+1)−∇f(xk)) > 0 (pelo enunciado). Mais ainda, o
segundo termo é positivo pois:
84
dtpk = d
t(−λkHk(Axk + b))
= −λkdtHk(Axk + b)
6= 0
, pois λk 6= 0, ∇f(xk) = Axk+b 6= 0 (pois essa é a condição para iniciar
uma iteração do DFP a partir de xk) e d 6= 0.
Logo, como dtHk+1d > 0 para todo d 6= 0 (já que o primeiro termo é
não negativo e o segundo é positivo), então Hk+1 é definida positiva.
6.20 Considere o problema de minimizar uma função f : Rn → R, f ∈ C2,
cuja matriz hessiana tem a forma ∇2f(xk) = I +F k, onde I é a matriz
identidade e F k é uma matriz esparsa com
∥∥F k∥∥ < 1. Sabe-se que para
‖A‖ < 1 vale a igualdade
(I + A)−1 = I − A+ A2 − A3 + · · ·
(a) Verifique a afirmação acima;
Observemos que:
(I + A)(I − A+ A2 − . . .+ A2n) = I(((((((
((((−A+ A2 − . . .+ A2n
((((
((((
(((
+A− A2 + . . .− A2n + A2n+1
= I + A2n+1
Além disso, lim
n→∞
A2n+1 = 0, já que lim
n→∞
‖A2n+1 − 0‖ = 0 (pois
‖A‖ < 1).
Como I − A+ A2 − . . . converge para ‖A‖ < 1, segue então que:
lim
n→∞
(I + A)(I − A+ A2 − . . .+ A2n) = lim
n→∞
I + A2n+1
(I + A)(I − A+ A2 − A3 + · · · ) = I
⇒
(I + A)−1 = I − A+ A2 − A3 + · · ·
85
(b) Descreva como utilizar um método quase-Newton de maneira efi-
ciente.
No contexto do enunciado, pelo método de Newton a direção dk é
dada por:
dk = −(∇2f(xk))−1∇f(xk)
dk = −(I + F k)−1∇f(xk)
Assim, em um método quase Newton utilizaríamos o resultado do
item a) para aproximar (I + F k)−1 da seguinte forma:
(I + F k)−1 = I − F k + (F k)2 − (F k)3 + · · ·
(F k esparsa com
∥∥F k∥∥ < 1⇒ ∥∥(F k)2∥∥ ≈ 0,∥∥(F k)3∥∥ ≈ 0, · · · )
≈ I − F k
Portanto, a direção dk dada por um método quase Newton (su-
pondo (I − F k) definida positiva ) seria:
dk = − (I − F k)︸ ︷︷ ︸
Hk:=
∇f(xk)
O resto do algoritmo seria dado como no algoritmo 6.3 (p. 40 do
livro da Ana).
6.21 Aplique o método DFP com busca linear exata para minimizar a função
f(x) = 10x21 + x
2
2 =
1
2
xtAx (com A =
[
20 0
0 2
]
) a partir de x0 =
(0.1, 1)t com H0 = I. Verifique a propriedade de terminação em n
passos para funções quadráticas, onde n é a dimensão do problema.
Temos que ∇f(x) = (20x1, 2x2)t.
Pelo algoritmo 6.4 (DFP, p. 40 do livro do Ana), as iterações são dadas
por:
86
1.i calcular dk = −Hk∇f(xk) .
d0 = −H0∇f(x0)
= −I∇f((0.1, 1)t)
= −(20× 0.1, 2× 1)t
= −(2, 2)t
1.ii Determinar λk e definir x
k+1 = xk + λkdk .
Seja φ0(λ) = f(x
0 + λd0) = f((0.1− 2λ, 1− 2λ)t). Temos que:
φ0(λ) = 10(0.1− 2λ)2 + (1− 2λ)2
= 44λ2 − 8λ+ 1.1
O ponto de mínimo de φ0(λ) é λ0 = − (−8)2×44 = 111 . Portanto,
x1 = x0 + λ0d0
= (0.1, 1)t +
1
11
(−2,−2)t
= (− 9
110
,
9
11
)t
1.iii Definir pk = λkdk = x
k+1−xk, qk = ∇f(xk+1)−∇f(xk) , e calcular
Hk+1 = Hk +
pkp
t
k
ptkqk
− HkqkqtkHk
qtkHkqk
.
Temos que:
p0 = λ0d0 = (− 2
11
,− 2
11
)t
q0 = ∇f(x1)−∇f(x0)
= (−18
11
,
18
11
)t − (2, 2)t
= (−40
11
,
4
11
)t
87
Logo,
H1 = H0 +
p0p
t
0
pt0q0
− H0q0q
t
0H0
qt0H0q0
= I +
p0p
t
0
pt0q0
− q0q
t
0
qt0q0
= I +
[
4
121
4
121
4
121
4
121
]
72
121
−
[
1600
121
−160
121−160
121
16
121
]
1616
121
= I +
[
1
18
1
18
1
18
1
18
]
−
[
100
101
−10
101−10
101
1
101
]
=
[
119
1818
281
1818
281
1818
1901
1818
]
2.i calcular dk = −Hk∇f(xk) .
d1 = −H1∇f(x1)
= −
[
119
1818
281
1818
281
1818
1901
1818
]
∇f((− 9
110
,
9
11
)t)
= −
[
119
1818
281
1818
281
1818
1901
1818
]
(−18
11
,
18
11
)t
= (− 162
1111
,−1620
1111
)t
2.ii Determinar λk e definir x
k+1 = xk + λkdk .
Seja φ1(λ) = f(x
1 + λd1) = f((− 9110 − λ 1621111 , 911 − λ16201111)t). Temos
que:
φ1(λ) = 10(− 9
110
− λ 162
1111
)2 + (
9
11
− λ1620
1111
)2
=
262440
112211
λ2 − 26244
12221
λ+
81
100
O ponto de mínimo de φ1(λ) é λ1 = − (−
26244
12221
)
2× 262440
112211
= 101
220
. Portanto,
88
x2 = x1 + λ1d1
= (− 9
110
,
9
11
)t +
101
220
(− 162
1111
,−1620
1111
)t
= (− 18
121
,
18
121
)t
2.iii Definir pk = λkdk = x
k+1−xk, qk = ∇f(xk+1)−∇f(xk) , e calcular
Hk+1 = Hk +
pkp
t
k
ptkqk
− HkqkqtkHk
qtkHkqk
.
Temos que:
p1 = λ1d1 = (− 81
1210
,− 81
121
)t
q1 = ∇f(x2)−∇f(x1)
= (−360
121
,
36
121
)t − (−18
11
,
18
11
)t
= (−162
121
,−162
121
)t
Logo,
H2 = H1 +
p1p
t
1
pt1q1
− H1q1qt
1H1
qt1H1q1
=
[
119
1818
281
1818
281
1818
1901
1818
]
+
[
6561
1464100
6561
146410
6561
146410
6561
14641
]
6561
6655
−
324
149352841
[
40000 218200
218200 1190281
]
3764556
1478741
=
[
119
1818
281
1818
281
1818
1901
1818
]
+
[
1
220
1
22
1
22
5
11
]
− 1
1173519
[
40000 218200
218200 1190281
]
=
[
10201
284020
200
14201
200
14201
13801
28402
]
3.i calcular dk = −Hk∇f(xk) .
89
d2 = −H2∇f(x2)
= −
[
10201
284020
200
14201
200
14201
13801
28402
]
∇f((− 18
121
,
18
121
)t)
= −
[
10201
284020
200
14201
200
14201
13801
28402
]
(−360
121
,
36
121
)t
= (
1458
14201
,− 1458
14201
)t
3.ii Determinar λk e definir x
k+1 = xk + λkdk .
Seja φ2(λ) = f(x
2+λd2) = f((− 18121+λ 145814201 , 18121−λ 145814201)t). Temos
que:
φ1(λ) = 10(− 18
121
+ λ
1458
14201
)2 + (
18
121
− λ 1458
14201
)2
=
2125764
18333491
λ2 − 52488
156211
λ+
324
1331
O ponto de mínimo de φ2(λ) é λ2 = − (−
52488
156211
)
2× 2125764
18333491
= 1291
891
. Portanto,
x3 = x2 + λ2d2
= (− 18
121
,
18
121
)t +
1291
891
(
1458
14201
,− 1458
14201
)t
= (0, 0)t
Como ∇f(x3) = (0, 0), temos que x3 = x∗ e o algoritmo termina.
De fato, como f(x) = 10x21 + x
2
2 ≥ 0 para todo x ∈ R2, temos que
x3 = x∗ = (0, 0)t é mesmo o minimizador de f .
Obs.: a verificação a seguir foi baseada no teorema 5.1.7 (p.215) do
livro Optimization Theory and Methods: Nonlinear Programming (Sun
e Yuan, 2006)
Como f(x) é quadrática, f(x) = 1
2
xtGx+btx+c (ondeG ∈ Rn×n simétrica, b ∈
Rn, c ∈ R). Pelo exercício 1.16)b), temos que ∇f(x) = Gx + b e
90
∇2f(x) = G (para G definida positiva). Supondo que seja usado o
método DFP com busca linear exata (como na p. 40 do livro da Ana,
algoritmo 6.4) , seja {pj} = {xj+1−xj} a sequência gerada pelo método
DFP. Para i = 0, . . . ,m (onde m ≤ n− 1), provemos que:
(a) Hi+1qj = pj, j = 0, . . . , i.
(b) ptiGpj = 0, j = 0, . . . , i− 1.
Provemos (a) e (b) (simultaneamente) por indução em i. Base:
valem para i = 0. Hipótese de indução: suponhamos que valham
para 0 ≤ j ≤ i.
Passo de indução: provemos que valem para i+1. Como∇f(xi+1) =
Gxi+1+b 6= 0 (por busca linear exata), temos que qk = ∇f(xk+1)−
∇f(xk) = G(xk+1 − xk) = Gpk. Pela hipótese de indução, para
j ≤ i temos:
∇tf(xi+1)pj = ∇tf(xi+1)pj +
i∑
k=j+1
(∇f(xk+1)−∇f(xk))tpj
= ∇tf(xi+1)pj +
i∑
k=j+1
qtkpj
= 0 +
i∑
k=j+1
(Gpk)
tpj
=
i∑
k=j+1
ptkGpj
= 0
Portanto, utilizando que pi+1 = λi+1di+1 = −λi+1Hi+1∇f(xi+1),
a hipótese de indução para (a) e ∇tf(xi+1)pj = 0, segue que
pti+1Gpj = (−λi+1Hi+1∇f(xi+1))tGpj
= −λi+1∇tf(xi+1)Hi+1qj
= −λi+1∇tf(xi+1)pj
= −λi+10
= 0
91
, o que prova que (b) vale para i+ 1. Provemos agora que (a) vale
para i+ 1.
Quando j = i + 1, a parte (a) vale para i + 1 pois, pela equação
de atualização do DFP, temos que
Hi+2qi+1 = pi+1(∗)
Quando j ≤ i, de (b) e da hipótese de indução para a temos:
pti+1qj = p
t
i+1Gpi = 0
qti+1Hi+1qj = q
t
i+1pj = p
t
i+1Gpj = 0
Logo, pela equação de atualização do DFP,
Hi+2qj = Hi+1qj +
pi+1��
��*
0
pti+1qj
pti+1qi+1
− Hi+1qi+1���
���:
0
qti+1Hi+1qj
qti+1Hi+1qi+1
= Hi+1qj
= pj(∗∗)
De (*) e (**) segue que (a) vale para i+ 1, isto é:
Hi+2qj = pj, j = 0, . . . , i+ 1
(c) {p0, p1, . . . , pm} são linearmente independentes.
Por contradição, se o conjunto for linearmente dependente, exis-
tem α0, α1, . . . , αm (não todos nulos) tais que α0p0+ . . .+αmpm =
0. Daí segue que, para todo i = 0, . . . ,m, αip
t
iGpi = 0. Como
G é definida positiva, ptiGpi > 0, e portanto αi = 0 para todo
i = 0, . . . ,m. Isso é uma contradição com o fato de que os αi
não são todos nulos. Logo, {p0, p1, . . . , pm} é linearmente inde-
pendente.
92
(d) O método termina em m + 1 ≤ n passos. Se m = n − 1, então
Hn = G
−1
Como {p0, p1, . . . , pm} são direções conjugadas (i.e., ptiGpj = 0, j =
0, . . . , i − 1), esse é um tipo de método de direções conjugadas e
portanto irá acabar em m (≤ n) passos usndo busca linear exata.
Quando m = n− 1, como {p0, p1, . . . , pn−1} são linearmente inde-
pendentes, do item (a) segue que:
HnGpj = Hnqj
= pj , j = 0, . . . , n− 1
⇒
Hn = G
−1
Pelas observações na página 40 do livro da Ana, temos então que:
dn = −G−1(∇f(xn))
= −(∇2f(xn))−1(∇f(xn))
Ou seja, dn é a própria direção de Newton. Logo, como o mé-
todo de Newton para quadráticas com hessiana definida positiva
encontra x∗ (a solução ótima) a partir de qualquer ponto em Rn
em uma iteração (p. 39 do livro da Ana) , teremos que xn+1 = x∗.
6.22 Considere o método quase-Newton com correção de posto 1
Hk+1 = Hk +
(p−Hkq)(p−Hkq)t
qt(p−Hkq) ,
onde p = xk+1 − xk e q = ∇f(xk+1) −∇f(xk). Sobre que condições a
correção acima pode ser utilizada?
Suponhamos que Hk seja simétrica definida positiva. Para que a dire-
ção dk+1 = −Hk+1∇f(xk+1) seja de descida, precisamos que Hk+1 seja
definida positiva (p. 39 do livro da Ana).
Se 0 6= d ∈ Rn, pela expressão para Hk temos:
93
dtHk+1d = dtHkd+ dt
(p−Hkq)(p−Hkq)t
qt(p−Hkq) d
= dtHkd+
[dt(p−Hkq)]2
qt(p−Hkq)
Como Hk é definida positiva, o primeiro termo (dtHkd) é positivo.
Logo, para que Hk+1 seja definida positiva, é suficiente que o segundo
termo seja não negativo.
Como [dt(p−Hkq)]2 ≥ 0, para que o segundo termo seja não negativo
é suficente que o denominador seja maior que 0, isto é:
qt(p−Hkq) > 0
(∇f(xk+1)−∇f(xk))t(xk+1 − xk −Hk[∇f(xk+1)−∇f(xk)]) > 0
(∇f(xk+1)−∇f(xk))t(xk+1 − xk)− (∇f(xk+1)−∇f(xk))tHk[∇f(xk+1)−∇f(xk)] > 0
qtp > qtHkq > 0
6.23 Seja f : Rn → R, f ∈ C1. Considere o método quase-Newton definido
por xk+1 = xk −B−1k ∇f(xk), onde a fórmula de recorrência para as Bk
é
Bk+1 = Bk +
yyt
ytp
,
y = q−Bkp, q = ∇f(xk+1)−∇f(xk) e p = xk+1−xk. Se z = p−B−1k q,
mostre que se Bk+1 é inversível então B
−1
k+1 = B
−1
k +
zzt
ztq
.
Como se trata de um método quase-Newton, consideremos também que
Bk seja simétrica (logo, também é definida positiva, pois uma matriz
simétrica é inversível ⇐⇒ for definida positiva). Sejam u = y√
ytp
e
v = y√
ytp
. Temos então que:
94
B−1k+1 = (Bk +
yyt
ytp
)−1
= (Bk + uv
t)−1
(pela fórmula de Sherman-Morrison)
= B−1k −
B−1k uv
tB−1k
1 + vtB−1k u
= B−1k −
B−1k
y√
ytp
yt√
ytp
B−1k
1 + y
t√
ytp
B−1k
y√
ytp
= B−1k −
B−1k yy
tB−1k
��ytp
ytp+ytB−1k y
��ytp
= B−1k −
B−1k yy
tB−1k
ytp+ ytB−1k y
Portanto, para provar o resultado do enunciado, basta que:
− B
−1
k yy
tB−1k
ytp+ ytB−1k y
=
zzt
ztq
− B
−1
k (q −Bkp)(q −Bkp)tB−1k
(q −Bkp)tp+ (q −Bkp)tB−1k (q −Bkp)
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
− (B
−1
k q − p)(qtB−1k − pt)
(q −Bkp)tp+ (qtB−1k − pt)(q −Bkp)
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
−[(p−B−1k q)(p−B−1k q)t]
−[(Bkp− q)tp+ (pt − qtB−1k )(q −Bkp)]
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
(p−B−1k q)(p−B−1k q)t
(Bkp− q)tp+ (p−B−1k q)tq − (p−B−1k q)tBkp
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
(p−B−1k q)(p−B−1k q)t
���
����(Bkp− q)tp+ (p−B−1k q)tq −�����
��
(Bkp− q)tp
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
0 = 0
95
Portanto, B−1k+1 = B
−1
k +
zzt
ztq
.
6.24 Considere o espaço Q(u, v) = {A ∈ Rn×n | Au = v}. Prove que Q(u, v)
é uma variedade afim. Qual é a sua dimensão? Idem para Q¯(u, v) =
{A ∈ Q(u, v) | A = At}. Seja F (x) = Gx+ b com G ∈ Rn×n e b ∈ Rn.
Prove que, para quaisquer x, y ∈ Rn, G ∈ Q(y − x, F (y)− F (x)).
parcialmente resolvido (faltou calcular as dimensões)
Definição 1 (variedade afim): Seja U um espaço afimassociado ao
espaço vetorial V . Um subconjunto não vazio P de U é uma variedade
afim se para algum A ∈ P o subespaço diretor SA(P ) := {AB | B ∈ P}
for um subespaço vetorial de V .
Observação: Se P é uma variedade afim, então SA(P ) = SB(P ) para
todos A,B ∈ P . Logo, o subespaço diretor de P também será denotado
por S(P )
Definição alternativa (variedade afim): Seja V um espaço vetorial.
A ⊂ V é uma variedade afim se, ∀u, v ∈ A, temos que (1− t)u+ tv ∈ A
para todo t ∈ R.
Definição 2 (dimensão de uma variedade afim): Se P for uma varie-
dade afim cujo subespaço diretor S(P ) tenha dimensão n, diremos que
P é uma variedade afim de dimensão n.
Sejam A,B ∈ Q(u, v) e t ∈ R. Temos que:
((1− t)A+ tB)u = (1− t)Au+ tBu
= (1− t)v + tv
= v
Logo, (1 − t)A + tB ∈ Q(u, v) para todo t ∈ R, e portanto Q(u, v) é
uma variedade afim (pela definição alternativa).
Sejam A,B ∈ Q¯(u, v) e t ∈ R. Temos que:
((1− t)A+ tB)t = (1− t)At + tBt
= (1− t)A+ tB
Logo, (1 − t)A + tB ∈ Q¯(u, v) para todo t ∈ R, e portanto Q¯(u, v) é
uma variedade afim (pela definição alternativa).
96
Sejam agora x, y ∈ Rn. Temos que:
G(y − x) = Gy −Gx
= [F (y)− b]− [F (x)− b]
= F (y)− ��b− F (x) + ��b
= F (y)− F (x)
Logo, G ∈ Q(y − x, F (y)− F (x)).
1.7 Capítulo 7 - Minimização com restrições lineares de
igualdade
7.1 Os problemas abaixo consistem em minimizar f sujeita a Ax = b onde
A ∈ Rm×n e b ∈ Rm. Para cada um deles:
(i) Encontre uma base de Nu(A)
(ii) Construa uma parametrização que caracterize o conjunto factível
(iii) Transforme o problema em outro equivalente sem restrições
(iv) Escreva as condições de primeira e segunda ordem para os dois
problemas equivalentes
(a) Minimizar f(x) = x21+x
2
2+x
2
3−2x1x2 s.a. 2x1+x2 = 4, 5x1−x3 = 8
(a.i) Encontre uma base de Nu(A)
Nesse caso, temos que A =
[
2 1 0
5 0 −1
]
e b =
[
4
8
]
.
Pelo sistema Ax = 0, temos então que:{
2x1 + x2 = 0
5x1 − x3 = 0
⇒
{
x2 = −2x1
x3 = 5x1
Portanto, se d ∈ Nu(A), então
d = (x1,−2x1, 5x1)t
= x1(1,−2, 5)t
Logo, {(1,−2, 5)t} é uma base deNu(A). Seja Z = (1,−2, 5)t.
97
(a.ii) Construa uma parametrização que caracterize o conjunto fac-
tível
Seja x˜ tal que Ax˜ = b. Temos que:{
2x˜1 + x˜2 = 4
5x˜1 − x˜3 = 8
⇒
{
x˜2 = 4− 2x˜1
x˜3 = 5x˜1 − 8
Definindo x˜1 = 0, temos então que x˜ = (0, 4,−8)t é uma
solução factível. Portanto, o conjunto factível S é:
S = {x ∈ R3 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R3 | x = (0, 4,−8)t + (1,−2, 5)tγ, γ ∈ R}
= {x ∈ R3 | x = (γ, 4− 2γ,−8 + 5γ)t, γ ∈ R}
= {(γ, 4− 2γ,−8 + 5γ)t | γ ∈ R}
(a.iii) Transforme o problema em outro equivalente sem restrições
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ +
Zγ), que é dada por:
ϕ(γ) = f(x˜+ Zγ)
= f((γ, 4− 2γ,−8 + 5γ)t)
= γ2 + (4− 2γ)2 + (−8 + 5γ)2 − 2(γ)(4− 2γ)
= 34γ2 − 104γ + 80
(a.iv) Escreva as condições de primeira e segunda ordem para os
dois problemas equivalentes
Primeiramente, o gradiente de f(x1, x2, x3) = x
2
1 + x
2
2 + x
2
3 −
2x1x2 é dado por:
∇f(x) = ( ∂f
∂x1
,
∂f
∂x2
,
∂f
∂x3
)t
= (2(x1 − x2), 2(x2 − x1), 2x3)t
= 2((x1 − x2), (x2 − x1), x3)t
Além disso, a hessiana de f é dada por:
98
∇2f(x) =
∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x3
∂2f
∂x1∂x2
∂2f
∂x22
∂2f
∂x2∂x3
∂2f
∂x1∂x3
∂2f
∂x2∂x3
∂2f
∂x23
=
2 −2 0−2 2 0
0 0 2
Portanto, as condições (necessárias) de otimalidade para o
problema com restrições são:
Ax∗ = b
Zt∇f(x∗) = 0
Zt∇2f(x∗)Z ≥ 0 (semidefinida positiva)
⇒
[
2 1 0
5 0 −1
] x∗1x∗2
x∗3
= [ 4
8
]
(1,−2, 5)2((x∗1 − x∗2), (x∗2 − x∗1), x∗3)t = 0
(1,−2, 5)
2 −2 0−2 2 0
0 0 2
(1,−2, 5)t ≥ 0
⇒
x∗2 = 4− 2x∗1
x∗3 = 5x
∗
1 − 8
2(3x∗1 − 3x∗2 + 5x∗3) = 0
68 ≥ 0
⇒
x∗2 = 4− 2x∗1
x∗3 = 5x
∗
1 − 8
3x∗1 = 3x
∗
2 − 5x3 = 3(4− 2x∗1)− 5(5x∗1 − 8)
68 ≥ 0
⇒
x∗2 =
16
17
x∗3 = − 617
x∗1 =
26
17
68 ≥ 0
Relembrando, temos que ϕ(γ) = 34γ2 − 104γ + 80 e x∗ =
x˜+ Zγ∗ = (γ∗, 4− 2γ∗,−8 + 5γ∗)t.
99
As condições (necessárias) de otimalidade para o problema
(equivalente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) ≥ 0 ⇒
{
68γ∗ − 104 = 0
68 ≥ 0 ⇒
{
γ∗ = 26
17
68 ≥ 0
Portanto, temos que x∗ = (γ∗, 4−2γ∗,−8+5γ∗)t = (26
17
, 16
17
,− 6
17
)t
Logo, como os problemas são equivalentes, as condições de
otimalidade também são (como esperado).
(b) Minimizar f(x) = x21 + 2x
2
2 − 2x1 − 2x1x2 s.a. 2x1 + x2 = 1.
(b.i) Encontre uma base de Nu(A)
Nesse caso, temos que A =
[
2 1
]
e b = 1.
Pelo sistema Ax = 0, temos então que:{
2x1 + x2 = 0 ⇒
{
x2 = −2x1
Portanto, se d ∈ Nu(A), então
d = (x1,−2x1)t
= x1(1,−2)t
Logo, {(1,−2)t} é uma base de Nu(A). Seja Z = (1,−2)t.
(b.ii) Construa uma parametrização que caracterize o conjunto fac-
tível
Seja x˜ tal que Ax˜ = b. Temos que:{
2x˜1 + x˜2 = 1 ⇒
{
x˜2 = 1− 2x˜1
Definindo x˜1 = 0, temos então que x˜ = (0, 1)
t
é uma solução
factível. Portanto, o conjunto factível S é:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (0, 1)t + (1,−2)tγ, γ ∈ R}
= {x ∈ R2 | x = (γ, 1− 2γ)t, γ ∈ R}
= {(γ, 1− 2γ)t | γ ∈ R}
(b.iii) Transforme o problema em outro equivalente sem restrições
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ +
Zγ), que é dada por:
100
ϕ(γ) = f(x˜+ Zγ)
= f((γ, 1− 2γ)t)
= γ2 + 2(1− 2γ)2 − 2γ − 2γ(1− 2γ)
= 13γ2 − 12γ + 2
(b.iv) Escreva as condições de primeira e segunda ordem para os
dois problemas equivalentes
Primeiramente, o gradiente de f(x1, x2) = x
2
1 + 2x
2
2 − 2x1 −
2x1x2 é dado por:
∇f(x) = ( ∂f
∂x1
,
∂f
∂x2
)t
= (2(x1 − x2)− 2, 2(2x2 − x1))t
Além disso, a hessiana de f é dada por:
∇2f(x) =
[
∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x2
∂2f
∂x22
]
=
[
2 −2
−2 4
]
Portanto, as condições (necessárias) de otimalidade para o
problema com restrições são:
Ax∗ = b
Zt∇f(x∗) = 0
Zt∇2f(x∗)Z ≥ 0 (semidefinida positiva)
⇒
[
2 1
] [ x∗1
x∗2
]
= 1
(1,−2)(2(x1 − x2)− 2, 2(2x2 − x1))t = 0
(1,−2)
[
2 −2
−2 4
]
(1,−2)t ≥ 0
⇒
101
2x∗1 + x
∗
2 = 1
6x∗1 − 10x∗2 = 2
26 ≥ 0
⇒
x∗2 = 1− 2x∗1
x∗1 =
6
13
26 ≥ 0
⇒
x∗2 =
1
13
x∗1 =
6
13
26 ≥ 0
Relembrando, temos que ϕ(γ) = 13γ2 − 12γ + 2 e x∗ = x˜ +
Zγ∗ = (γ∗, 1− 2γ∗)t.
As condições (necessárias) de otimalidade para o problema
(equivalente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) ≥ 0 ⇒
{
26γ∗ − 12 = 0
26 ≥ 0 ⇒
{
γ∗ = 6
13
26 ≥ 0
Portanto, temos que x∗ = (γ∗, 1− 2γ∗)t = ( 6
13
, 1
13
)t
Logo, como os problemas são equivalentes, as condições de
otimalidade também são (como esperado).
7.2 Considere a função f(x, y) = xy
(a) Analise os pontos estacionários do problema: minimizar f(x, y)
sem restrições
Os pontos estacionários são dados por:
∇f(x, y) = 0
(
∂f
∂x
,
∂f
∂y
)t = 0
(y, x)t = 0
Logo, (0, 0) é o único ponto estacionário.
Além disso, a hessiana de f é dada por:
102
∇2f(x) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
0 1
1 0
]
Como os autovalores de ∇2f(x) são λ1 = −1 e λ2 = 1, a matriz é
indefinida. Em particular, não é semidefinida positiva, e portanto
a função não possui mínimo global. Também em particular, como
∇2f((0, 0)t) é indefinida e (0, 0)t é estacionário, segue que (0, 0)t
é ponto de sela.
(b) Acrescente a restrição x + y = 0. Analise as condições de otima-
lidade de primeira e segunda ordem
Nesse caso, temos que A =
[
1 1
]
e b = 0.
Pelo sistema Ax = 0, temos então que:{
x+ y = 0 ⇒
{
y = −x
Portanto, se d ∈ Nu(A), então
d = (x,−x)t
= x(1,−1)t
Logo, {(1,−1)t} é uma base de Nu(A). Seja Z = (1,−1)t.
Além disso, temos que x˜ = (0, 0)t é uma soluçãofactível. Portanto,
o conjunto factível S é:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (0, 0)t + (1,−1)tγ, γ ∈ R}
= {x ∈ R2 | x = (γ,−γ)t, γ ∈ R}
= {(γ,−γ)t | γ ∈ R}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜+Zγ),
que é dada por:
103
ϕ(γ) = f(x˜+ Zγ)
= f((γ,−γ)t)
= −γ2
As condições (necessárias) de otimalidade para o problema (equi-
valente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) ≥ 0 ⇒
{
−2γ∗ = 0
−2 ≥ 0 ⇒
{
γ∗ = 0
−2 ≥ 0
Portanto, temos que x∗ = (γ∗,−γ∗)t = (0, 0)t é estacionário, mas
que não satisfaz a condição necessária de otimalidade (pois −2 ≥
0). De fato, como ∇2ϕ(γ) = −2 < 0 para todo γ ∈ R, temos que
esse problema não possui mínimo global.
(c) Resolva (b) para a restrição x− y = 0
Nesse caso, temos que A =
[
1 −1 ] e b = 0.
Pelo sistema Ax = 0, temos então que:{
x− y = 0 ⇒
{
y = x
Portanto, se d ∈ Nu(A), então
d = (x, x)t
= x(1, 1)t
Logo, {(1, 1)t} é uma base de Nu(A). Seja Z = (1, 1)t.
Além disso, temos que x˜ = (0, 0)t é uma solução factível. Portanto,
o conjunto factível S é:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (0, 0)t + (1, 1)tγ, γ ∈ R}
= {x ∈ R2 | x = (γ, γ)t, γ ∈ R}
= {(γ, γ)t | γ ∈ R}
104
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜+Zγ),
que é dada por:
ϕ(γ) = f(x˜+ Zγ)
= f((γ, γ)t)
= γ2
As condições (necessárias) de otimalidade para o problema (equi-
valente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) ≥ 0 ⇒
{
2γ∗ = 0
2 ≥ 0 ⇒
{
γ∗ = 0
2 ≥ 0
Portanto, temos que x∗ = (γ∗, γ∗)t = (0, 0)t satisfaz as condições
necessárias (mais especificamente, as suficientes) de otimalidade.
Logo, x∗ = (0, 0)t é o minimizador global de f sujeita a x− y = 0.
(d) Analise (a), (b) e (c). Que conclusões podem ser tiradas?
No item a), percebemos que o único ponto estacionário de f ,
x∗ = (0, 0)t, não é um minimizador global (e sim um ponto de
sela). No item b), percebemos que a superfície que faz f não ter
minimizadores globais é justamente a dada por x + y = 0. No
item c), percebemos que f teria um minimizador global se ficasse
restrita apenas a x− y = 0 .
Logo, podemos perceber que as restrições (mesmo que sejam ape-
nas lineares) podem alterar totalmente as características do pro-
blema (mesmo analisando a mesma função objetivo).
7.3 Encontre o ponto sobre o plano x+2y+2z = 4 cuja distância à origem
é mínima.
Esse problema equivale a minimizar a função f(x, y, z) = x2 + y2 + z2
(quadrado da distância de (x, y, z)t à origem) sob a restrição x+ 2y +
2z = 4.
Nesse caso, temos que A =
[
1 2 2
]
e b = 4.
Pelo sistema Ax = 0, temos então que:{
x+ 2y + 2z = 0 ⇒
{
x = −2y − 2z
Portanto, se d ∈ Nu(A), então:
105
d = (−2y − 2z, y, z)t
= y(−2, 1, 0)t + z(−2, 0, 1)t
Logo, {(−2, 1, 0)t, (−2, 0, 1)t} é uma base deNu(A). Seja Z =
−2 −21 0
0 1
.
Seja (x˜, y˜, z˜)t tal que A(x˜, y˜, z˜)t = b. Temos que:{
x˜+ 2y˜ + 2z˜ = 4 ⇒
{
x˜ = 4− 2y˜ − 2z˜
Definindo y˜ = z˜ = 0, temos então que (x˜, y˜, z˜)t = (4, 0, 0)t é uma
solução factível. Portanto, o conjunto factível S é:
S = {(x, y, z) ∈ R3 | (x, y, z) = (x˜, y˜, z˜)t + Zγ, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (4, 0, 0)t +
−2 −21 0
0 1
[ γ1
γ2
]
, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (4, 0, 0)t + (−2γ1 − 2γ2, γ1, γ2)t, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (4− 2γ1 − 2γ2, γ1, γ2)t, γ ∈ R2}
= {(4− 2γ1 − 2γ2, γ1, γ2)t | γ ∈ R2}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ + Zγ), que
é dada por:
ϕ(γ) = f(x˜+ Zγ)
= f((4− 2γ1 − 2γ2, γ1, γ2)t)
= (4− 2γ1 − 2γ2)2 + (γ1)2 + (γ2)2
= 5γ21 + 8γ1γ2 − 16γ1 + 5γ22 − 16γ2 + 16
Primeiramente, o gradiente de ϕ é dado por:
106
∇ϕ(γ) = ( ∂ϕ
∂γ1
,
∂ϕ
∂γ2
)t
= (10γ1 + 8γ2 − 16, 8γ1 + 10γ2 − 16)t
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) =
[
∂2ϕ
∂γ21
∂2ϕ
∂γ1∂γ2
∂2ϕ
∂γ1∂γ2
∂2ϕ
∂γ22
]
=
[
10 8
8 10
]
Os autovalores de ∇2ϕ(γ) são ambos positivos (λ1 = 18, λ2 = 2),e
portanto ∇2ϕ(γ) é definida positiva.
As condições (suficientes) de otimalidade para o problema (equivalente)
sem restrições são:
{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) > 0 ⇒
2(5γ∗1 + 4γ
∗
2 − 8) = 0
2(8γ∗1 + 10γ
∗
2 − 16) = 0[
10 8
8 10
]
> 0
⇒
γ∗1 =
8
9
γ∗2 =
8
9[
10 8
8 10
]
> 0
Portanto, temos que x∗ = (4− 2γ1 − 2γ2, γ∗1 , γ∗2)t = (49 , 89 , 89)t é o mini-
mizador de f .
7.4 Seja f(x) = ‖x‖ , x ∈ Rn. Considere o problema de minimizar f sujeita
a Ax = b com A ∈ Rm×n, b ∈ Rm,m < n e posto(A) = m. Prove que a
solução x¯ desse problema pode ser escrita como x¯ = A¯b onde A¯ ∈ Rn×m
e AA¯ = I.
Considerando ‖·‖ = ‖·‖2, então esse problema é a generalização do
exercício 7.3, e é equivalente a minimizar f(x) = 1
2
‖x‖22 = 12
n∑
i=1
x2i
sujeita a Ax = b com A ∈ Rm×n, b ∈ Rm,m < n e posto(A) = m.
Como posto(A) = m, então a dimensão de Nu(A) é n−m (pelo exercí-
cio 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal deNu(A)
107
(encontrada a partir de uma base qualquer de Nu(A) via processo de
Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz cujas colunas são os veto-
res zi.
Seja x˜ tal que Ax˜ = b. Logo, o conjunto factível é S = {x ∈ Rn | x =
x˜+ Zγ, γ ∈ Rn−m}.
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ + Zγ), que
é dada por:
ϕ(γ) = f(x˜+ Zγ)
=
1
2
‖x˜+ Zγ‖22
Primeiramente, pela regra da cadeia o gradiente de ϕ é dado por:
∇ϕ(γ) = Zt∇f(x˜+ Zγ)
= 2
1
2
Zt(x˜+ Zγ) (pois ∇‖x‖22 = 2x)
= Zt(x˜+ Zγ)
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) = Zt∇2f(x˜+ Zγ)Z
= Zt diag(1, . . . , 1)Z (onde diag(1, . . . , 1) ∈ Rn×n)
Logo, Zt diag(1, . . . , 1)Z é uma decomposição espectral de ∇2ϕ(γ), o
que implica que todos os seus autovalores são positivos (e iguais a 1)
para todo γ ∈ Rn−m. Logo ∇2ϕ(γ) é definida positiva (para todo
γ ∈ Rn−m).
Ainda, se x∗ é um minimizador local, então existe λ∗ ∈ Rm tal que
(x∗, λ∗) é solução do seguinte sistema (pela condição de primeira ordem
da p.51 do livro da Ana):
108
{
∇f(x∗) = Atλ∗
Ax∗ = b
⇒
{
x∗ = Atλ∗
Ax∗ = b
⇒
{
x∗ = Atλ∗
AAtλ∗ = b
⇒{
x∗ = At(AAt)−1b
λ∗ = (AAt)−1b
Definamos A∗ = At(AAt)−1 ∈ Rn×m . Temos então que x∗ = A∗b e
AA∗ = AAt(AAt)−1 = I.
7.5 Seja f : Rn → R, f ∈ C2. Seja x¯ ∈ Rn tal que Ax¯ = b (A ∈ Rm×n, b ∈
Rm) e tal que existe λ ∈ Rm com ∇f(x¯) = Atλ e ∇2f(x¯) definida
positiva. O ponto x¯ é um minimizador local de f sujeita a Ax = b?
Prove ou dê um contraexemplo.
Como existe λ ∈ Rm tal que ∇f(x¯) = Atλ, então ∇f(x¯) ∈ Im(At) =
Nu(A)⊥ (pelo exercício 1.3). Sejam {z1, z2, . . . , zn−m} uma base orto-
normal de Nu(A) e Z ∈ Rn×(n−m) uma matriz cujas colunas são os
vetores zi.
Logo, como ∇f(x¯) ∈ Nu(A)⊥, ∇f(x¯) ⊥ zi para i = 1, . . . , n − m.
Logo, ZT∇f(x¯) = 0. Como Ax¯ = b, definindo ϕ(γ) := f(x¯+Zγ) (com
γ ∈ Rn−m), temos então que ∇ϕ(0) = ZT∇f(x¯) = 0. Logo, x¯ satisfaz
a condição de otimalidade de primeira ordem.
Como∇2f(x¯) é definida positiva, pelo teorema espectral se Λ = diag(λ1, . . . , λn)
possui os autovalores de ∇2f(x¯) e V = [v1, . . . , vn] (i.e., a i-ésima co-
luna de Q é o autovetor vi associado a λi ), então temos que ∇2f(x¯) =
V ΛV T , onde V é ortogonal. Como todos os autovalores de ∇2f(x¯)
são positivos, então podemos decompor Λ =
√
Λ
t√
Λ (onde
√
Λ =
diag(λ−11 , . . . , λ
−1
n )). Seja agora 0 6= d ∈ Rn−m. Temos então que:
dtZt∇2f(x¯)Zd = dtZtV ΛV TZd
= dtZtV
√
Λ
t√
ΛV TZd
= (
√
ΛV TZd)t
√
ΛV TZd
=
∥∥∥√ΛV TZd∥∥∥2
2
Como Z e V são ortogonais,
√
ΛV TZ é inversível (sendo (
√
ΛV TZ)−1 =
ZTV
√
Λ
−1
, onde
√
Λ
−1
= diag(λ
−1/2
1 , . . . , λ
−1/2
n )) e d 6= 0, temos
√
ΛV TZd 6=
109
0. Portanto,
∥∥∥√ΛV TZd∥∥∥2
2
> 0 e Zt∇2f(x¯)Z é definida positiva, o que
faz x¯ satisfazer a condição suficiente de segunda ordem.
Logo, x¯ é um minimizador local def sujeita a Ax = b.
7.6 Considere o problema
minimizar
1
2
xtQx+ ptx+ q
s.a. Ax = b,
onde Q ∈ Rn×n é simétrica, x, p ∈ Rn, q ∈ R, A ∈ Rm×n, b ∈ Rm. Seja
Z uma base de Nu(A) e suponha que ZtQZ é definida positiva. Seja
x0 tal que Ax0 = b. Prove que a solução x¯ é dada por
x¯ = x0 − Z(ZtQZ)−1Zt(Qx0 + p).
Como x0 é tal que Ax0 = b e Z é uma base de Nu(A), o conjunto
factível é S = {x ∈ Rn | x = x0 + Zγ, γ ∈ Rn−m}.
Nomeemos a função objetivo como f(x) como:
f(x) =
1
2
xtQx+ ptx+ q
=
1
2
< x,Qx > + < p, x > +q
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x0 +Zγ), que
é dada por:
ϕ(γ) = f(x0 + Zγ)
=
1
2
< x0 + Zγ,Q(x0 + Zγ) > + < p, x0 + Zγ > +q
Primeiramente, pela regra da cadeia o gradiente de ϕ é dado por:
110
∇ϕ(γ) = Zt∇f(x0 + Zγ)
(pelo ex. 1.16)b), ∇f(x) = Qx+ p)
= Zt[Q(x0 + Zγ) + p]
= ZtQx0 + ZtQZγ + Ztp
= ZtQZγ + Zt(Qx0 + p)
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) = Zt∇2f(x˜+ Zγ)Z
(pelo ex. 1.16)b), ∇f(x) = Q)
= ZtQZ
Pelo enunciado, ∇2ϕ(γ) = ZtQZ é definida positiva (para todo γ ∈
Rn−m). Em particular, ZtQZ é inversível (por ser definida positiva).
Logo, a única condição restante (suficiente) de otimalidade para o pro-
blema (equivalente) sem restrições é:
∇ϕ(γ∗) = 0
Zt∇f(x0 + Zγ∗) = 0
ZtQZγ∗ + Zt(Qx0 + p) = 0
γ∗ = −(ZtQZ)−1Zt(Qx0 + p)
Portanto, temos que a solução ótima é dada por:
x∗ = x0 + Zγ∗
= x0 + Z[−(ZtQZ)−1Zt(Qx0 + p)]
= x0 − Z(ZtQZ)−1Zt(Qx0 + p)
111
7.7 Considere o problema
minimizar f(x)
s.a. Ax = b,
onde f : Rn → R, f ∈ C1, A ∈ Rm×n, b ∈ Rm,m < n e posto(A) = m.
Seja p¯ a solução de
minimizar ‖∇f(x)− p‖
s.a. Ap = 0.
Encontre p¯ e interprete geometricamente.
Considerando ‖·‖ = ‖·‖2, então o segundo problema equivale a:
minimizar g(p) = 1
2
‖∇f(x)− p‖22
s.a. Ap = 0.
Como posto(A) = m, então a dimensão de Nu(A) é n−m (pelo exercí-
cio 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal deNu(A)
(encontrada a partir de uma base qualquer de Nu(A) via processo de
Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz cujas colunas são os veto-
res zi.
Como p˜ = 0 é uma solução factível (pois Ap˜ = A0 = 0), o conjunto
factível é S = {p ∈ Rn | p = Zγ, γ ∈ Rn−m}.
O problema equivalente irrestrito é minimizar ϕ(γ) := g(Zγ), que é
dada por:
ϕ(γ) = g(Zγ)
=
1
2
‖∇f(x)− Zγ‖22
112
Primeiramente, pela regra da cadeia o gradiente de ϕ é dado por:
∇ϕ(γ) = Zt∇g(Zγ)
(como ∇‖x‖22 = 2x e ∇g(p) = −
1
2
2(∇f(x)− p) = p−∇f(x))
= Zt(Zγ −∇f(x))
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) = Zt∇2g(Zγ)Z
= Zt diag(1, . . . , 1)Z (onde diag(1, . . . , 1) ∈ Rn×n)
Logo, Zt diag(1, . . . , 1)Z é uma decomposição espectral de ∇2ϕ(γ), o
que implica que todos os seus autovalores são positivos (e iguais a 1)
para todo γ ∈ Rn−m. Logo ∇2ϕ(γ) é definida positiva (para todo
γ ∈ Rn−m).
Ainda, se p¯ é um minimizador local, então existe λ¯ ∈ Rm tal que (p¯, λ¯)
é solução do seguinte sistema (pela condição de primeira ordem da p.51
do livro da Ana):{
∇g(p¯) = Atλ¯
Ap¯ = 0
⇒
{
p¯−∇f(x) = Atλ¯
Ap¯ = 0
⇒
{
p¯ = Atλ¯+∇f(x)
A(Atλ¯+∇f(x)) = 0 ⇒{
p¯ = At(−(AAt)−1A∇f(x)) +∇f(x)
λ¯ = −(AAt)−1A∇f(x)
Logo,
p¯ = −At(AAt)−1A∇f(x) +∇f(x)
= (I − At(AAt)−1A)∇f(x)
= ProjNu(A)(∇f(x)) (pela eq. 8.2 na p. 57 do livro da Ana)
Geometricamente, p¯ é o ponto que está na intersecção dos m hiper-
planos que passam pela origem definidos por Ap = 0, e que é o mais
próximo possível de ∇f(x) (devido à minimização de ‖∇f(x)− p‖).
113
Em outras palavras, p¯ é a projeção de ∇f(x) sobre Nu(A).
7.8 Dadas as variedades afins em Rn, S = {x ∈ Rn | Ax = b} e U = {y ∈
Rn | Cy = d}, onde A ∈ Rm×n, b ∈ Rm, C ∈ Rp×n, d ∈ Rp, considere o
problema de encontrar o ponto de S mais próximo de U . Formule esse
problema como um problema de otimização e escreva as condições de
otimalidade.
Se queremos encontrar o ponto de S mais próximo de U , então queremos
resolver o seguinte problema de otimização:
minimizar f(x, p) = 1
2
‖x− y‖22
s.a. Ax = b.
Cy = d.
Supondo posto(A) = m, então a dimensão de Nu(A) é n − m (pelo
exercício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal
de Nu(A) (encontrada a partir de uma base qualquer de Nu(A) via
processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz cujas colunas
são os vetores zi.
Seja x˜ tal que Ax˜ = b. Logo, S pode ser reescrito como S = {x ∈
Rn | x = x˜+ Zγ, γ ∈ Rn−m}.
Supondo agora posto(C) = p, então a dimensão de Nu(A) é n−p (pelo
exercício 1.3). Logo, sejam {w1, w2, . . . , wn−p} uma base ortonormal
de Nu(C) (encontrada a partir de uma base qualquer de Nu(C) via
processo de Gram-Schmidt) e W ∈ Rn×(n−p) uma matriz cujas colunas
são os vetores wi.
Seja y˜ tal que Cy˜ = d. Logo, U pode ser reescrito como U = {y ∈
Rn | y = y˜ +Wδ, δ ∈ Rn−p}.
O problema equivalente irrestrito é minimizar ϕ(γ, δ) := f(x˜+Zγ, y˜+
Wδ), que é dada por:
ϕ(γ, δ) = f(x˜+ Zγ, y˜ +Wδ)
=
1
2
‖x˜+ Zγ − y˜ −Wδ‖22
114
Primeiramente, pela regra da cadeia o gradiente de ϕ é dado por:
∇ϕ(γ, δ) = (∇tγϕ(γ, δ),∇tδϕ(γ, δ))t
= ([Zt∇xf(x˜+ Zγ, y˜ +Wδ)]t, [W t∇yf(x˜+ Zγ, y˜ +Wδ)]t)t
= ([2
1
2
Zt(x˜+ Zγ − y˜ −Wδ)]t, [−21
2
W t(x˜+ Zγ − y˜ −Wδ)]t)t
= ([Zt(x˜+ Zγ − y˜ −Wδ)]t, [−W t(x˜+ Zγ − y˜ −Wδ)]t)t
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ, δ) =
[ ∇2γγϕ(γ, δ) ∇2γδϕ(γ, δ)
∇2γδϕ(γ, δ) ∇2δδϕ(γ, δ)
]
=
[
Zt∇2xxf(x˜+ Zγ, y˜ +Wδ)Z Zt∇2xyf(x˜+ Zγ, y˜ +Wδ)W
W t∇2yxf(x˜+ Zγ, y˜ +Wδ)Z W t∇2yyf(x˜+ Zγ, y˜ +Wδ)W
]
=
[
ZtIZ Zt(−I)W
W t(−I)Z W tIW
]
=
[
ZtZ −ZtW
−W tZ W tW
]
=
[
I −ZtW
−W tZ I
]
Seja agora 0 6= d = (dt1, dt2)t ∈ R(2n−m−p)×(2n−m−p), com d1 ∈ Rn−m e
d2 ∈ Rn−p. Temos então que:
dt∇2ϕ(γ, δ)d = dt1Id1 + dt2(−W tZ)d1 + dt1(−ZtW )d2 + dt2Id2
= dt1d1 + d
t
2(−W tZ)d1 + dt1(−ZtW )d2 + dt2d2
= ‖d1‖22 + ‖d2‖22 − (Wd2)t(Zd1)− (Zd1)tWd2
= ‖d1‖22 + ‖d2‖22 − 2 < Wd2, Zd1 >
Temos que pelo menos um dos termos entre ‖d1‖22 e ‖d2‖22 é maior que
0 (pois 0 6= d = (dt1, dt2)t). Logo, para que ∇2ϕ(γ, δ) seja definida
positiva, é suficiente que, para todos d1 ∈ Rn−m ,d2 ∈ Rn−p:
115
−2 < Wd2, Zd1 > ≥ 0
< Wd2, Zd1 > ≤ 0
‖Wd2‖ ‖Zd1‖ cos(θ) ≤ 0
θ ∈ [pi
2
,
3pi
2
]
Logo, a outra condição restante (necessária) de otimalidade para o
problema (equivalente) sem restrições é:{
∇ϕ(γ∗, δ∗) = 0 ⇒
{
Zt(x˜+ Zγ∗ − y˜ −Wδ∗) = 0
−W t(x˜+ Zγ∗ − y˜ −Wδ∗) = 0 ⇒{
ZtZγ∗ = −Zt(x˜− y˜ −Wδ∗)
−W tZγ∗ +W tWδ∗ = W t(x˜− y˜) ⇒{
γ∗ = −(ZtZ)−1Zt(x˜− y˜ −Wδ∗)
−W tZ[−(ZtZ)−1Zt(x˜− y˜ −Wδ∗)] +W tWδ∗ = W t(x˜− y˜) ⇒{
γ∗ = −(ZtZ)−1Zt(x˜− y˜ −Wδ∗)
(−W tZ(ZtZ)−1ZtW +W tW )δ∗ = W t(x˜− y˜ − Z(ZtZ)−1Zt(x˜− y˜)) ⇒{
γ∗ = −(ZtZ)−1Zt(x˜− y˜) + (ZtZ)−1ZtWδ∗
δ∗ = −(W tZ(ZtZ)−1ZtW +W tW )−1W t(x˜− y˜ − Z(ZtZ)−1Zt(x˜− y˜)) ⇒{
γ∗ = −(ZtZ)−1Zt(x˜− y˜)− (ZtZ)−1ZtW (W tZ(ZtZ)−1ZtW +W tW )−1W t(x˜− y˜ − Z(ZtZ)−1Zt(x˜− y˜))
δ∗ = −(W tZ(ZtZ)−1ZtW +W tW )−1W t(x˜− y˜ − Z(ZtZ)−1Zt(x˜− y˜))
Em particular, para W e Z ortogonais (W tW = I = ZtZ), temos que:{
γ∗ = −Zt(x˜− y˜)− ZtW (W tZZtW + I)−1W t(x˜− y˜ − ZZt(x˜− y˜))
δ∗ = −(W tZZtW + I)−1W t(x˜− y˜ − ZZt(x˜− y˜))
Portanto, as soluções do problema (se a condição necessária de segunda
ordem for satisfeita) são x∗ = x˜+ Zγ∗ e y∗ = y˜ +Wδ∗
1.8 Capítulo 8 - Algoritmos para restrições lineares de
igualdade
8.1 Considere o problema de minimizar x2+3y2+2z2, sujeita a x+2y+3z =
6. Seja x0 = (1, 1, 1)t. Resolva o problema aplicando o método de
116
Newton ao problema reduzido e verificando que x1 satisfaz as condições
de otimalidade de primeira e segunda ordem.
O problema é minimizar f(x, y, z) = x2+3y2+2z2 sujeita a A(x, y, z) =
b, onde A =
[
1 2 3
]
e b = 6
Pelo sistema A(x, y, z) = 0, temos então que:{
x+ 2y + 3z = 0 ⇒
{
x = −2y − 3z
Portanto, se d ∈ Nu(A), então
d = (−2y − 3z, y, z)t
= y(−2, 1, 0)t + z(−3, 0, 1)t
Logo, {(−2, 1, 0)t, (−3, 0, 1)t} é uma base deNu(A). Seja Z =
−2−31 0
0 1
.
Definindo (x˜, y˜, z˜)t = (1, 1, 1)t, temos que A(x˜, y˜, z˜) = b (ou seja, essa
é uma solução factível). Portanto, o conjunto factível S é:
S = {(x, y, z) ∈ R3 | (x, y, z) = (x˜, y˜, z˜)t + Zγ, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (1, 1, 1)t +
−2 −31 0
0 1
[ γ1
γ2
]
, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (1, 1, 1)t + (−2γ1 − 3γ2, γ1, γ2)t, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (1− 2γ1 − 3γ2, 1 + γ1, 1 + γ2)t, γ ∈ R2}
= {(1− 2γ1 − 3γ2, 1 + γ1, 1 + γ2)t | γ ∈ R}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ + Zγ), que
é dada por:
ϕ(γ) = f(x˜+ Zγ)
= f((1− 2γ1 − 3γ2, 1 + γ1, 1 + γ2)t)
= (1− 2γ1 − 3γ2)2 + 3(1 + γ1)2 + 2(1 + γ2)2
= 7γ21 + 12γ1γ2 + 2γ1 + 11γ
2
2 − 2γ2 + 6
117
Primeiramente, o gradiente de ϕ é dado por:
∇ϕ(γ) = ( ∂ϕ
∂γ1
,
∂ϕ
∂γ2
)t
= (2(7γ1 + 6γ2 + 1), 2(6γ1 + 11γ2 − 1))t
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) =
[
∂2ϕ
∂γ21
∂2ϕ
∂γ1∂γ2
∂2ϕ
∂γ1∂γ2
∂2ϕ
∂γ22
]
=
[
14 12
12 22
]
Os autovalores da hessiana são λ1 ≈ 30.6491 e λ2 ≈ 5.35089, e portanto
ela é definida positiva (e as direções geradas pelo método de Newton
serão de descida).
Apliquemos agora o método de Newton para ϕ(γ) a partir de x0 =
(1, 1, 1)t = x˜ + Z0, isto é, a partir de γ0 = (0, 0)t. As iterações são
dadas por:
1.i verificar ∇ϕ(γk) = 0 .
∇ϕ(γ0) = (2(7(0) + 6(0) + 1), 2(6(0) + 11(0)− 1))t
= (2,−2)t
6= (0, 0)t
Logo, o algoritmo continua.
1.ii calcular dk = −(∇2ϕ(γk))−1∇ϕ(γk) .
118
∇2ϕ(γ0)d0 = −∇ϕ(γ0)[
14 12
12 22
] [
d10
d20
]
= −
[
2
−2
]
d0 = (−17
41
,
13
41
)t
1.iii Determinar λk e definir γ
k+1 = γk + λkdk .
Seja φ0(λ) = ϕ(γ
0 + λd0) = ϕ((−λ1741 , λ1341)t). Temos que:
φ0(λ) = 7(−λ17
41
)2 + 12(−λ17
41
)(λ
13
41
) + 2(−λ17
41
) + 11(λ
13
41
)2 − 2(λ13
41
) + 6
=
30
41
λ2 − 60
41
λ+ 6
O ponto de mínimo de φ0(λ) é λ0 = − (−
60
41
)
2× 30
41
= 1. Portanto,
γ1 = γ0 + λ0d0
= (0, 0)t + 1(−17
41
,
13
41
)t
= (−17
41
,
13
41
)t
2.i verificar ∇ϕ(γk) = 0 .
∇ϕ(γ1) = (2(7(−17
41
) + 6(
13
41
) + 1), 2(6(−17
41
) + 11(
13
41
)− 1))t
= (0, 0)t
Logo, o algoritmo para.
Além disso, como ∇2ϕ(γ) é definida positiva para todo γ, segue
que γ1 satisfaz as condições de otimalidade de primeira e segunda
ordem para ϕ. Logo
119
(x1, y1, z1)t = (x˜, y˜, z˜)t + Zγ1
= (1, 1, 1)t +
−2 −31 0
0 1
[ −1741
13
41
]
=
6
41
(6, 4, 9)t
também satisfaz as condições de otimalidade de primeira e se-
gunda ordem para f (por serem problemas equivalentes).
8.2 Considere o problema quadrático
minimizar f(x) = 1
2
xtQx− ctx = 1
2
< x,Qx > − < c, x >
s.a. Ax = b,
onde Q ∈ Rn×n é simétrica, c ∈ Rn, A ∈ Rm×n e b ∈ Rm. Prove que
x¯ é um minimizador local se e somente se x¯ é um minimizador global
(note que não há hipótese alguma sobre Q).
⇒ Sendo x∗ um minimizador global do problema, segue imediatamente
que x∗ também é um mínimizador local, pois para qualquer ε > 0 e
qualquer x ∈ B(x∗, ε) ∩ {y | Ay = b}, teremos f(x∗) ≤ f(x).
⇐ Seja x∗ um minimizador local do problema. Pelo exercício 1.16)b) ,
sabemos que ∇f(x) = Qx− c e ∇2f(x) = Q. Como x∗ é minimizador
local, então existe λ∗ ∈ Rm tal que Ax∗ = b e ∇f(x∗) = Qx∗−c = Atλ∗
(pela equação 7.10 da página 51 do livro da Ana).
Supondo posto(A) = m, então a dimensão de Nu(A) é n − m (pelo
exercício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal
de Nu(A) (encontrada a partir de uma base qualquer de Nu(A) via
processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz cujas colunas
são os vetores zi.
Como x∗ é solução viável, o conjunto viável S pode ser escrito como
S = {x ∈ Rn | x = x∗ + Zγ, γ ∈ Rn−m}.
Calculando f apenas nos pontos x ∈ S, obtemos então que:
120
f(x) = f(x∗ + Zγ)
=
1
2
< x∗ + Zγ,Q(x∗ + Zγ) > − < c, x∗ + Zγ >
=
1
2
[< x∗, Qx∗ > + < x∗, QZγ > + < Zγ,Qx∗ > + < Zγ,QZγ >]
− < c, x∗ > − < c, Zγ >
=
1
2
[< x∗, QZγ > + < Zγ,Qx∗ > + < Zγ,QZγ >]− < c, Zγ > +f(x∗)
= (Q simétrica⇒< x∗, QZγ >=< Qx∗, Zγ >)
=
1
2
[< Qx∗, Zγ > + < Zγ,Qx∗ > + < Zγ,QZγ >]− < c, Zγ > +f(x∗)
=
1
2
[< Zγ,QZγ >]+ < Qx∗, Zγ > − < c, Zγ > +f(x∗)
=
1
2
[< Zγ,QZγ >]+ < Qx∗ − c, Zγ > +f(x∗)
(∇f(x∗) = Qx∗ − c = Atλ∗)
=
1
2
[< Zγ,QZγ >]+ < Atλ∗, Zγ > +f(x∗)
=
1
2
γtZtQZγ + (λ∗)t��
�*
0 (Zγ ∈ Nu(A))
AZγ + f(x∗)
=
1
2
γtZtQZγ + f(x∗)
⇒
f(x)− f(x∗) = 1
2
γtZtQZγ
Ainda, como x∗ é minimizador de f restrito a S, então para todo x ∈ S,
existe ε > 0 tal que :
121
0 ≤ f(x∗ + ε(x− x∗))− f(x∗)
= f(x∗ + εZγ)− f(x∗)
=
1
2
< x∗ + εZγ,Q(x∗ + εZγ) > − < c, x∗ + εZγ > −[1
2
< x∗, Qx∗ > − < c, x∗ >]
=
1
2
[
hhhhhhh< x
∗, Qx∗ >+ < x∗, εQZγ > + < εZγ,Qx∗ > + < εZγ, εQZγ >]
−�����< c, x∗ >− < c, εZγ > −
XXXXXXXX
1
2
< x∗, Qx∗ >+���
��< c, x∗ >
=
1
2
[ε < x∗, QZγ > +ε < Zγ,Qx∗ > +ε2 < Zγ,QZγ >]− ε < c, Zγ >
= (Q simétrica⇒< x∗, QZγ >=< Qx∗, Zγ >)
=
1
2
[ε < Qx∗, Zγ > +ε < Zγ,Qx∗ > +ε2 < Zγ,QZγ >]− ε < c, Zγ >
=
ε2
2
< Zγ,QZγ > +ε < Qx∗, Zγ > −ε < c, Zγ >
=
ε2
2
< Zγ,QZγ > +ε < Qx∗ − c, Zγ >
(∇f(x∗) = Qx∗ − c = Atλ∗)
=
ε2
2
< Zγ,QZγ > +ε < Atλ∗, Zγ >
=
ε2
2
γtZtQZγ + ε(λ∗)t��
�*
0 (Zγ ∈ Nu(A))
AZγ
=
ε2
2
γtZtQZγ
Daí segue que γtZtQZγ ≥ 0. Como f(x) − f(x∗) = 1
2
γtZtQZγ, te-
mos também que f(x) − f(x∗) ≥ 0 para todo x ∈ S. Portanto, x∗ é
minimizador global de f restrita a S.
8.3 Considere o problema de minimizar f sujeita a Ax = b com f : Rn → R,
A ∈ Rm×n, b ∈ Rm, m < n e posto(A)= m. Sejam x¯ ∈ Rn tal que
Ax¯ = b e g = ∇f(x¯) 6= 0. Seja d ∈ Rn tal que ∇tf(x¯)d < 0. Sejam gˆ
e dˆ as projeções de g e d sobre Nu(A), respectivamente. Considere as
seguintes afirmações:
(a) dˆtgˆ < 0;
(b) Existem dˆ e gˆ tais que dˆtgˆ ≥ 0;
122
Qual das duas afirmações é verdadeira? Prove ou dê um contra-exemplo.
Seja Z ∈ Rn×(n−m) uma matriz cujas colunas formam uma base de
ortonormal de Nu(A) (isto é, ZtZ = I ).
Temos que:
dˆtgˆ = ProjNu(A)(d)
tProjNu(A)(g)
(eq. 8.3 da p. 57 do livro da Ana)
= [Z(ZtZ)−1Ztd]t(Z(ZtZ)−1Zt)∇f(x¯)
(ZtZ = I)
= [ZZtd]t(ZZt)∇f(x¯)
= dtZ(ZtZ)Zt∇f(x¯)
(ZtZ = I)
= dtZZt∇f(x¯)
= (Ztd)tZt∇f(x¯)
=< Ztd, Zt∇f(x¯) >
Temos que d é direção de descida (pois ∇tf(x¯)d < 0), mas pode não
ser uma direção factível de descida. Por outro lado, como −ZZt∇f(x¯)
é uma direção factível de descida, temos que ZZt∇f(x¯) é uma direção
factível de subida.
Em particular, se d = −ZZt∇f(x¯) (direção factível de descida), temos:
dˆtgˆ =< Ztd, Zt∇f(x¯) >
=< Zt(−ZZt∇f(x¯)), Zt∇f(x¯) >
(ZtZ = I)
= − < Zt∇f(x¯), Zt∇f(x¯) >
= −∥∥Zt∇f(x¯)∥∥2
2
(se Zt∇f(x¯) = 0, i.e., se ∇f(x¯) é ortogonal a Nu(A))
= 0
≥ 0
Logo, a afirmação (b) é a verdadeira.
123
8.4 Considere o seguinte problema:
minimizar f(x1, x2) = x
2
1 + x
2
2
s.a. x1 + x2 = 1,
(a) Encontre a solução ótima x∗;
Nesse caso, temos que A =
[
1 1
]
e b = 1.
Pelo sistema Ax = 0, temos então que:{
x1 + x2 = 0 ⇒
{
x2 = −x1
Portanto, se d ∈ Nu(A), então:
d = (x1,−x1)t
= x1(1,−1)t
Logo, {(1,−1)t} é uma base de Nu(A). Seja Z =
[
1
−1
]
.
Seja x˜ tal que Ax˜ = b. Temos que:{
x˜1 + x˜2 = 1 ⇒
{
x˜2 = 1− x˜1
Definindo x˜1 =
1
2
, temos então que x˜ = (1
2
, 1
2
)t é uma solução
factível. Portanto, o conjunto factível S é:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (1
2
,
1
2
)t +
[
1
−1
]
γ, γ ∈ R}
= {x ∈ R2 | x = (1
2
+ γ,
1
2
− γ)t, γ ∈ R2}
= {(1
2
+ γ,
1
2
− γ)t | γ ∈ R}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜+Zγ),
que é dada por:
124
ϕ(γ) = f(x˜+ Zγ)
= f((
1
2
+ γ,
1
2
− γ)t)
= (
1
2
+ γ)2 + (
1
2
− γ)2
= 2γ2 +
1
2
≥ 1
2
∀γ ∈ RComo ϕ(0) = 1
2
e ϕ(γ) ≥ 1
2
, segue que γ∗ = 0 é o minimizador de
ϕ(γ) . Logo, o minimizador de f é x∗ = x˜+Zγ∗ = (1
2
, 1
2
)t +Z0 =
(1
2
, 1
2
)t.
(b) Considere o problema penalizado �minimizar x21+x
2
2+µ(x1+x2−
1)2 �. Para cada µ > 0, calcule a solução ótima x¯(µ);
Seja fµ(x) = x
2
1 + x
2
2 + µ(x1 + x2 − 1)2.
Primeiramente, o gradiente de fµ é dado por:
∇fµ(x) = (∂fµ
∂x1
,
∂fµ
∂x2
)t
= (2(µ(x1 + x2 − 1) + x1), 2(µ(x1 + x2 − 1) + x2))t
Além disso, a hessiana de ϕ é dada por:
∇2fµ(x) =
[
∂2fµ
∂x21
∂2fµ
∂x1∂x2
∂2fµ
∂x1∂x2
∂2fµ
∂x22
]
=
[
2µ+ 2 2µ
2µ 2µ+ 2
]
Os autovalores de ∇2fµ(x) são ambos positivos pois µ > 0 (λ1 =
2, λ2 = 2(2µ+1)),e portanto∇2fµ(x) é definida positiva para todo
x ∈ R2.
125
Logo, a única condição restante (e suficiente) de otimalidade é
∇fµ(x¯(µ)) = 0, que é dada por:{
2(µ(x¯1(µ) + x¯2(µ)− 1) + x¯1(µ)) = 0
2(µ(x¯1(µ) + x¯2(µ)− 1) + x¯2(µ)) = 0
⇒
{
x¯1(µ) =
µ
2µ+1
x¯2(µ) =
µ
2µ+1
Logo, a solução ótima é x¯(µ) = ( µ
2µ+1
, µ
2µ+1
)t
(c) Verifique que limµ→∞ x¯(µ) = x∗;
Temos que
lim
µ→∞
x¯(µ) = lim
µ→∞
(
µ
2µ+ 1
,
µ
2µ+ 1
)t
= lim
µ→∞
(
1
2 + 1
µ
,
1
2 + 1
µ
)t
= (
1
2
,
1
2
)t
= x∗
(d) Repita (a), (b) e (c) trocando a função objetivo por x31 + x
3
2
Seja agora f(x, y) = x31 + x
3
2.
Como as restrições ainda são as mesmas do problema original,
então o conjunto viável S continua o mesmo, e é dado por:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (1
2
,
1
2
)t +
[
1
−1
]
γ, γ ∈ R}
= {x ∈ R2 | x = (1
2
+ γ,
1
2
− γ)t, γ ∈ R2}
= {(1
2
+ γ,
1
2
− γ)t | γ ∈ R}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜+Zγ),
que é dada por:
126
ϕ(γ) = f(x˜+ Zγ)
= f((
1
2
+ γ,
1
2
− γ)t)
= (
1
2
+ γ)3 + (
1
2
− γ)3
= 3γ2 +
1
4
≥ 1
4
∀γ ∈ R
Como ϕ(0) = 1
4
e ϕ(γ) ≥ 1
4
, segue que γ∗ = 0 é o minimizador de
ϕ(γ) . Logo, o minimizador de f é x∗ = x˜+Zγ∗ = (1
2
, 1
2
)t +Z0 =
(1
2
, 1
2
)t.
Seja fµ(x) = x
3
1 + x
3
2 + µ(x1 + x2 − 1)2.
Primeiramente, o gradiente de fµ é dado por:
∇fµ(x) = (∂fµ
∂x1
,
∂fµ
∂x2
)t
= (3x21 + 2µ(x1 + x2 − 1), 3x22 + 2µ(x1 + x2 − 1))t
Além disso, a hessiana de ϕ é dada por:
∇2fµ(x) =
[
∂2fµ
∂x21
∂2fµ
∂x1∂x2
∂2fµ
∂x1∂x2
∂2fµ
∂x22
]
=
[
2µ+ 6x1 2µ
2µ 2µ+ 6x2
]
A condição necessária de otimalidade de primeira ordem é∇fµ(x¯(µ)) =
0, que é dada por:{
3x21 + 2µ(x1 + x2 − 1) = 0
3x22 + 2µ(x1 + x2 − 1) = 0
Os pontos estacionários são dados na figura a seguir:
127
Figura 7: Pontos estacionários de fµ gerados pelo WolframAlpha .m := µ.
Logo, existem quatro diferentes pontos x¯(µ) que são estacionários.
Para qualquer um deles, temos limµ→∞ x¯(µ) 6= x∗.
(e) Analise os resultados obtidos.
Para o primeiro caso, foi possível obter limµ→∞ x¯(µ) = x∗, prova-
velmente devido ao �comportamento regular� da função f(x, y) =
x2 + y2 (com curvas de nível concêntricas) e também devido ao
uso de uma penalidade apropriada (quadrática).
Para o segundo caso, não foi possível obter limµ→∞ x¯(µ) = x∗,
provavelmente devido ao �comportamento irregular� da função
f(x, y) = x3+y3 (com curvas de nível não concêntricas) e também
devido ao uso de uma penalidade inapropriada (quadrática).
8.5 Seja z1 = (1,−1, 2)t. Escolha z2 ∈ R3 tal que z1 e z2 sejam linearmente
independentes. Considere Z = [z1z2] uma base de Nu(A) com A ∈
Rm×n.
(a) Determine m e n;
Como z1 = (1,−1, 2)t, então se definirmos z2 = −z1 = (−1, 1,−2)t,
teremos que z1 e z2 serão linearmente independentes (pois (z1)tz2 =
128
0). Supondo 1 ≤ m ≤ n (suposição da página 47 do livro da
Ana) e posto(A) = k ≤ min(m,n) = m,seja então Z = [z1z2] = 1 −1−1 1
2 −2
∈ Rn×(n−k) uma base de Nu(A) com A ∈ Rm×n.
Como Z tem três linhas, segue que n = 3. Como a base de Nu(A)
tem dois vetores, segue que dim(Nu(A)) = 2. Ainda, pelo exercí-
cio 1.3)b), temos:
dim(Nu(A)) = n− k
2 = 3− k
k = 1
m, por sua vez, pode assumir qualquer valor em {1, . . . , n}, isto
é, em {1, . . . , 3}.
(b) Encontre A. É única?
A não é única, pois, como visto acima, nem o seu número de di-
mensões é unicamente determinado (poism pode assumir qualquer
valor em {1, . . . , 3})
Se x ∈ Rn = R3 pertence a Nu(A), então existe γ ∈ Rn−k = R2
tal que d = Zγ = (γ1 − γ2,−(γ1 − γ2), 2(γ1 − γ2))t = (x,−x, 2x)t
(para algum x ∈ R) . Logo, se (x, y, z)t ∈ Nu(A), então y = −x
e z = 2x.
Portanto, supondo m = 2, uma possibilidade para A seria A =[
1 1 0
−2 0 1
]
, pois A(x, y, z)t = 0⇒ y = −x e z = 2x.
Para m = 3, outra possibilidade para A seria simplesmente adicio-
nar uma equação redundante (i.e., uma linha que seja combinação
linear das outras), como A =
1 1 0−2 0 1
−2 0 1
. Nesse caso, também
temos que A(x, y, z)t = 0⇒ y = −x e z = 2x.
(c) Ache as equações da variedade afim paralela a Nu(A) que passa
pelo ponto (2, 5, 1)t;
Como visto no item (b) (para m = 2), os pontos de Nu(A) são da
forma (x,−x, 2x)t para x ∈ R, e portanto Nu(A) é uma reta que
passa pela origem com vetor diretor (1,−1, 2)t. Logo, se S é uma
129
reta paralela a Nu(A) que passa pelo ponto (2, 5, 1)t, seu vetor
diretor também será (1,−1, 2)t e S é dada por:
S = {(2, 5, 1)t + λ(1,−1, 2)t | λ ∈ R}
S = {(2 + λ, 5− λ, 1 + 2λ)t | λ ∈ R}
Como λ = x− 2 = 5− y = z−1
2
, então os pontos de S podem ser
expressos pelo seguinte sistema de equações:{
x− 2 = 5− y
5− y = z−1
2
⇒
{
x+ y = 7
10− 2y = z − 1 ⇒
{
x+ y + 0z = 7
0x− 2y − z = −11
Portanto, definindo C =
[
1 1 0
0 −2 −1
]
e d = (7,−11)t, S pode
ser expresso por:
S = {(x, y, z) ∈ R3 | C(x, y, z)t = d}
Ainda, pelo sistema C(x, y, z) = 0, temos então que:{
x+ y = 0
−2y − z = 0 ⇒
{
x = −y
z = −2y
Portanto, se d ∈ Nu(C), então
d = (−y, y,−2y)t
= y(−1, 1,−2)t
Logo, {(−1, 1,−2)t} é uma base de Nu(A). Seja W =
−11
−2
.
(d) Se S é a variedade encontrada em (c) e x¯ é a solução de minimizar
f sujeita a x ∈ S, onde f : Rn → R, qual é a relação entre Z e f
no ponto x¯?
Seja W uma matriz cujas colunas são uma base de Nu(C). Pela
condição de otimalidade de primeira ordem (p.49 do livro da Ana),
sabemos queW t∇f(x¯) = 0 (ou seja, ∇f(x¯) é ortogonal a Nu(C)).
Porém como Nu(C) e Nu(A) são paralelas, então ∇f(x¯) também
será ortogonal a Nu(A), isto é, Zt∇f(x¯) = 0.
130
8.6 Considere o problema de minimizar f sujeita a Ax = b com f : Rn → R,
f ∈ C2, A ∈ Rm×n, b ∈ Rm. Se x¯ ∈ Rn é uma solução desse problema
então existe λ¯ ∈ Rm tal que ∇f(x¯) + Atλ¯ = 0. Definimos
a função lagrangeana: L(x, λ) = f(x) + λt(Ax− b);
a função dual: φ(λ) = MinimizarxL(x, λ);
para todo λ tal que φ(λ) esteja bem definida, e
o problema dual: Maximizar φ(λ)
(a) Que tipo de ponto é (x¯, λ¯) em relação a L(x, λ) ?
Temos que
∇xL(x, λ) = ∇f(x) +∇x(λtAx− λtb)
= ∇f(x) + Atλ
⇒
∇xL(x¯, λ¯) = ∇f(x¯) + Atλ¯
= 0 (pelo enunciado)
Logo, (x¯, λ¯) é um ponto estacionário de L(x, λ).
(b) Prove que φ(λ) ≤ f(x) para todo x tal que Ax = b;
Para x tal que Ax = b, temos Ax− b = 0,e portanto:
φ(λ) = MinimizarxL(x, λ)
≤ L(x, λ)
= f(x) + λt���
���:0(Ax− b)
= f(x)
Logo, φ(λ) ≤ f(x) para x tal que Ax = b.
131
(c) Exiba o problema dual para f(x) = ctx, onde c ∈ Rn.
Temos que
L(x, λ) = ctx+ λt(Ax− b)
⇒
∇xL(x, λ) = ∇(ctx) +∇x(λtAx− λtb)
= c+ Atλ
⇒
∇xL(x∗, λ) = 0
c+ Atλ = 0
c = −Atλ
Portanto, φ(λ) é dada por:
φ(λ) = MinimizarxL(x, λ)
= L(x∗, λ)
= (−Atλ)tx+ λt(Ax− b)
= −���λtAx+���λtAx− λtb
= −λtb
Desta forma, temos
o problema dual: Maximizar φ(λ) = −λtb
8.7 Considere o problema de minimizar f(x) = 1
2
xt(x−2c) sujeita a Ax = b,
onde c ∈ Rn, A ∈ Rm×n, b ∈ Rm, m ≤ n e posto(A)= m. Seja
P a matriz de projeção sobre o núcleo deA. Seja x¯ uma solução do
problema. Prove que Px¯ = Pc. Interprete geometricamente em R2.
Como posto(A) = m, então a dimensão de Nu(A) é n−m (pelo exer-
cício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal (i.e.,
ZtZ = I) de Nu(A) (encontrada a partir de uma base qualquer de
132
Nu(A) via processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz
cujas colunas são os vetores zi.
Pela página 57 do livro da Ana, a matriz de projeção P sobre o núcleo
de A é dada por P = ZZt.
Temos que o gradiente de f é dado por:
∇f(x) = ∇(1
2
‖x‖22 − xtc)
= x− c
Pela condição de otimalidade de primeira ordem (p. 50 do livro da
Ana), temos:
Zt∇f(x¯) = 0
Zt(x¯− c) = 0
Ztx¯ = Ztc
ZZtx¯ = ZZtc
P x¯ = Pc
Geometricamente, isso significa que x¯ e c são �simétricos� em relação a
Nu(A) (que é uma reta se n = 2), pois ambos estão mais próximos de
um mesmo ponto de Nu(A) (já que suas projeções em Nu(A)) são as
mesmas.
8.8 Considere o problema (P) Minimizar f(x) = 1
2
xtBx + ctx sujeita a
Ax = b, onde {x ∈ Rn | Ax = b} é não vazio e B é simétrica.
(a) Prove que se (P) tem solução, então ztBz ≥ 0 para todo z ∈
Nu(A).
Sendo x∗ a solução de P .
Supondo posto(A) = m, então a dimensão de Nu(A) é n − m
(pelo exercício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base or-
tonormal de Nu(A) (encontrada a partir de uma base qualquer
de Nu(A) via processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma
matriz cujas colunas são os vetores zi.
133
Como x∗ é solução viável, o conjunto viável S pode ser escrito
como S = {x ∈ Rn | x = x∗ + Zγ, γ ∈ Rn−m}.
Seja z ∈ Nu(A). Logo, como as colunas de Z são uma base de
Nu(A), existe γ ∈ Rn−m tal que z = Zγ. Daí vem que:
ztBz = (Zγ)tB(Zγ)
= γtZtBZγ
≥ 0(provado na �volta� do exercício 8.2)
(b) Prove que (P) tem solução única se e somente se ztBz > 0 para
todo z ∈ Nu(A), z 6= 0.
⇒ Suponhamos que (P) tenha uma solução única x∗. Portanto,
x∗ é um minimizador global estrito de f restrito a Ax = b. Dessa
forma (novamente repetindo a demonstração feita no exercício
8.2), para todo x tal que Ax = b existe ε > 0 tal que:
0 < f(x∗ + ε(x− x∗))− f(x∗)
.
.
. (mesma demonstração do ex. 8.2)
=
ε2
2
γtZtBZγ
Da inequação anterior, como ε > 0, segue que γtZtBZγ > 0 para
todo γ ∈ Rn−m.
Seja z ∈ Nu(A). Logo, como as colunas de Z são uma base de
Nu(A), existe γ ∈ Rn−m tal que z = Zγ. Daí vem que:
ztBz = (Zγ)tB(Zγ)
= γtZtBZγ
> 0
⇐ Suponhamos que ztBz > 0 para todo z ∈ Nu(A), z 6= 0, e seja
x∗ um minimizador de f restrito a Ax = b.
134
Seja z ∈ Nu(A). Logo, como as colunas de Z são uma base de
Nu(A), existe γ ∈ Rn−m tal que z = Zγ. Assim, para todo ε > 0,
temos que (�invertendo� a demonstração do exercício 8.2):
ztBz > 0
ε2
2
(Zγ)tB(Zγ) > 0
ε2
2
γtZtBZγ > 0
(mesma demonstração do ex. 8.2)
.
.
.
f(x∗ + Z(εγ))− f(x∗) > 0
(γ′ := εγ)
f(x∗ + Zγ′)− f(x∗) > 0
(todo ponto viável x é da forma x∗ + Zγ′)
f(x)− f(x∗) > 0
Logo, x∗ é um minimizador global estrito de f restrito a Ax = b.
Portanto, x∗ é único.
(c) Mostre com um exemplo que (a) é condição necessária de otima-
lidade mas não é suficiente.
não resolvido
8.9 Seja B uma matriz simétrica. Dizemos que B ≥ 0 em Nu(A) se ztBz ≥
0 para todo z ∈ Nu(A), e dizemos que B > 0 em Nu(A) se ztBz > 0
para todo z ∈ Nu(A), z 6= 0.
(a) Prove que se existe r ∈ R tal que B + rAtA > 0, então B > 0 em
Nu(A);
Provando a contrapositiva, suponhamos que existe z ∈ Nu(A), z 6=
0 tal que ztBz ≤ 0. Para todo r ∈ R, temos então que:
zt(B + rAtA)z = ztBz + rztAt��*
0 (z ∈ Nu(A))
Az
= ztBz
≤ 0
Logo, não existe r ∈ R tal que B + rAtA > 0.
135
(b) Prove que se existe r ∈ R tal que B + rAtA ≥ 0, então B ≥ 0 em
Nu(A);
Provando a contrapositiva, suponhamos que existe z ∈ Nu(A), z 6=
0 tal que ztBz < 0. Para todo r ∈ R, temos então que:
zt(B + rAtA)z = ztBz + rztAt��*
0 (z ∈ Nu(A))
Az
= ztBz
< 0
Logo, não existe r ∈ R tal que B + rAtA ≥ 0.
(c) Prove que se B > 0 em Nu(A), então existe r ∈ R tal que B +
rAtA > 0;
caso 1: Se 0 6= d ∈ Nu(A).
Suponhamos que B > 0 em Nu(A), isto é, se 0 6= z ∈ Nu(A)
então ztBz > 0. Para r = 0 segue que:
dt(B + rAtA)d = dtBd+��
0
rdtAtAd
= dtBd
> 0 (pois 0 6= d ∈ Nu(A))
Logo, existe r ∈ R tal que B + rAtA > 0.
caso 2: Consideremos agora 0 6= d 6∈ Nu(A), mas provemos a
contrapositiva. Isto é, suponhamos que para todo r ∈ R a matriz
B+rAtA não seja definida positiva. Logo, para todo r ∈ R, existe
0 6= d 6∈ Nu(A) (pois já consideramos 0 6= d ∈ Nu(A) no caso 1)
tal que:
dt(B + rAtA)d ≤ 0
dtBd+ rdtAtAd ≤ 0
dtBd+ r(Ad)tAd ≤ 0
dtBd+ r
>0 pois d 6∈Nu(A)︷ ︸︸ ︷
‖Ad‖22 ≤ 0
136
Consideremos uma subdivisão do caso 2 em três casos, de acordo
com o valor de r.
caso 2.1: Para r = 0, obtemos que:
dtBd ≤ 0
Logo, B não é definida positiva.
caso 2.2: Para r > 0, obtemos que:
dtBd ≤ −r ‖Ad‖22 < 0
dtBd < 0
Logo, B não é definida positiva.
caso 2.3: Para r < 0, não conseguimos afirmar algo sobre o sinal
de dtBd. Porém, como apenas estamos querendo verificar se B não
é definida positiva em Nu(A) (e o caso 2 é caso 0 6= d 6∈ Nu(A)),
não há o que analisar.
(d) Através de um exemplo mostre que a recíproca de (b) não é ver-
dadeira.
não resolvido
8.10 Relacione os exercícios 8.8 e 8.9 com a resolução do problema
Minimizar φ(x, r) =
1
2
xtBx+ ctx+ r ‖Ax− b‖2 .
Seja f(x) = 1
2
xtBx+ctx. Temos então que φ(x, r) = f(x)+r ‖Ax− b‖2.
O gradiente de φ(x, r) em relação a x é dado por:
∇xφ(x, r) = ∇f(x) +∇x(r ‖Ax− b‖2)
= Bx+ c+ 2rAt(Ax− b)
A hessiana de φ(x, r) em relação a x é dado por:
137
∇2xφ(x, r) = Jx(∇xφ(x, r))(x, r)
= B + 2r(AtA)t
= B + 2rAtA
Definindo r′ := 2r, temos:
∇2xφ(x, r′) = B + r′AtA
Seja (P) o problema de minimizar f(x) restrita a Ax = b, e seja (P') o
problema de minimizar φ(x, r) sem restrições.
Pelo exercício 8.8, temos que B ≥ 0 em Nu(A) é condição necessária
de otimalidade para (P), e B > 0 em Nu(A) é parte das condições
suficientes de otimalidade para (P).
Pelo exercício 8.9)b), se vale a condição necessária de otimalidade para
(P') (existe r ∈ R tal que B + rAtA ≥ 0), então vale a condição
necessária de otimalidade para (P) (B ≥ 0 em Nu(A)).
Pelos itens 8.9)a)c), temos que a condição suficiente de otimalidade para
(P) (B > 0 em Nu(A)) é válida se, e somente se, a condição suficiente
de otimalidade para (P) é válida (existe r ∈ R tal que B + rAtA > 0).
Portanto, se encontrarmos um ponto (x∗, r∗) que satisfaça as condições
suficientes de otimalidade para (P'), então x∗ irá satisfazer as condições
suficientes de otimalidade para (P) (o problema original, com restri-
ções). Também temos que se (x∗, r∗) que satisfaz a condição necessária
de otimalidade para (P'), então x∗ irá satisfazer a condição necessária
de otimalidade para (P).
Isso é vantajoso, pois é mais fácil resolver (P') de modo direto (usando
métodos de otimização irrestrita) do que (P) (por causa das restrições).
8.11 Considere o problema de minimizar f(x) = 1
2
xtLx sujeita a Ax = 0,
onde L ∈ Rn×n simétrica, A ∈ Rm×n, m < n e posto(A)= m.
(a) Escreva as condições de otimalidade de primeira e segunda or-
dem.
138
Como posto(A) = m, então a dimensão de Nu(A) é n−m (pelo
exercício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonor-
mal de Nu(A) (encontrada a partir de uma base qualquer de
Nu(A) via processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma ma-
triz cujas colunas são os vetores zi.
Como 0 é solução viável, o conjunto viável S pode ser escrito como
S = {x ∈ Rn | x = 0 + Zγ = Zγ, γ ∈ Rn−m}.
O problema equivalente irrestrito é minimizar ϕ(γ) := f(Zγ).
Portanto, as condições (suficientes) de otimalidade para o pro-
blema (equivalente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) > 0 ⇒
{
Zt∇f(Zγ∗) = 0
Zt∇2f(Zγ∗)Z > 0 ⇒
{
ZtLZγ∗ = 0
ZtLZ > 0
(b) Suponha que são válidas as condições suficientesem (a) e encontre
a solução.
Supondo válidas as condições em (a), temos então que ZtLZ > 0.
Logo, ZtLZ é invertível e da condição primeira ordem temos que:
ZtLZγ∗ = 0
γ∗ = (ZtLZ)−10
γ∗ = 0
Como x∗ = Zγ∗ = Z0 = 0, temos que x∗ = 0 é um minimizador
local do problema.
1.9 Capítulo 9 - Minimização com restrições lineares de
desigualdade
9.1 Considere o seguinte problema
maximizar 2x1 + 3x2
s.a. x1 + x2 ≤ 8
−x1 + 2x2 ≤ 4
x1, x2 ≥ 0
139
(a) Escreva as condições de otimalidade;
Temos que o problema é equivalente a
minimizar f(x) = −2x1 − 3x2
s.a. x1 + x2 ≤ 8
−x1 + 2x2 ≤ 4
−x1 + 0x2 ≤ 0
0x1 − x2 ≤ 0
Nesse caso, temos A =
1 1
−1 2
−1 0
0 −1
e b =
8
4
0
0
.
O gradiente de f é dado por:
∇f(x) = ( ∂f
∂x1
,
∂f
∂x2
)t
= (−2,−3)t
Além disso, a hessiana de f é dada por:
∇2f(x) =
[
∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x2
∂2f
∂x22
]
=
[
0 0
0 0
]
Sejam x∗ ∈ Rn , I(x∗) := {j ∈ {1, . . . ,m} | atjx∗ = bj}, r(x∗) :=
|I(x∗)|, J := {i ∈ {1, . . . , r(x∗)} | λi < 0}.
Pelo teorema 9.2 (p. 73 do livro da Ana), as condições necessárias
de otimalidade são:
(i) existe λ ∈ Rr(x∗) tal que ∇f(x∗) = AtIλ e λi ≤ 0 para todo
i ∈ {1, . . . , r(x∗)}
140
(ii) Para todo y ∈ Nu(AI) temos que yt∇2f(x∗)y ≥ 0
Pelo teorema 9.3 (p. 73 do livro da Ana), as condições suficientes
de otimalidade (local) são:
(i) existe λ ∈ Rr(x∗) tal que ∇f(x∗) = AtIλ e λi ≤ 0 para todo
i ∈ {1, . . . , r(x∗)}
(ii) Para todo 0 6= y ∈ Nu(AJ ) temos que yt∇2f(x∗)y > 0
(b) Para cada ponto extremo verifique se as condições de otimalidade
são satisfeitas. Encontre a solução ótima.
O conjunto viável é dado pela figura a seguir:
Figura 8: Conjunto viável gerado pelo WolframAlpha .
Resolvendo as igualdades duas a duas, obtemos que os pontos
extremos são x1 = (0, 0)t, x2 = (8, 0)t, x3 = (4, 4)t e x4 = (0, 2)t.
Analisemos o ponto x1 = (0, 0)t. Temos que os elementos para a
verificação das condições a serem definidos são:
141
I(x1) = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {3, 4}
r(x1) = |I(x1)|
= 2
AtI =
[ −1 0
0 −1
]
∇f(x1) = AtIλ, λi ≤ 0, λ ∈ Rr(x
1) = R2
(−2,−3)t =
[ −1 0
0 −1
]
(λ1, λ2)
t
(λ1, λ2)
t = (2, 3)
Logo, x1 = (0, 0)t não satisfaz a condição necessária de primeira
ordem.
Analisemos o ponto x2 = (8, 0)t. Temos que os elementos para a
verificação das condições a serem definidos são:
I(x2) = {j ∈ {1, . . . ,m} | atjx2 = bj}
= {1, 4}
r(x2) = |I(x2)|
= 2
AtI =
[
1 0
1 −1
]
∇f(x2) = AtIλ, λi ≤ 0, λ ∈ Rr(x
2) = R2
(−2,−3)t =
[
1 0
1 −1
]
(λ1, λ2)
t
(λ1, λ2)
t = (−2, 1)
Logo, x2 = (8, 0)t não satisfaz a condição necessária de primeira
ordem.
Analisemos o ponto x3 = (4, 4)t. Temos que os elementos para a
verificação das condições a serem definidos são:
142
I(x3) = {j ∈ {1, . . . ,m} | atjx3 = bj}
= {1, 2}
r(x3) = |I(x3)|
= 2
AtI =
[
1 −1
1 2
]
∇f(x3) = AtIλ, λi ≤ 0, λ ∈ Rr(x
3) = R2
(−2,−3)t =
[
1 −1
1 2
]
(λ1, λ2)
t
(λ1, λ2)
t = (−7
3
,−1
3
)⇒ x3 satisfaz condição de primeira ordem
J = {i ∈ {1, . . . , r(x3)} | λi < 0}
= {1, 2}
AJ =
[
1 1
−1 2
]
AJ (x1, x2)t = (0, 0)t[
1 1
−1 2
]
(x1, x2)
t = (0, 0)t
(x1, x2)
t = (0, 0)t
Nu(AJ ) = {(0, 0)t} ⇒ x3 satisfaz condição de segunda ordem
por �vacuidade�
Logo, x3 = (4, 4)t satisfaz as condições necessárias de primeira e
segunda ordem. Como se trata de um problema de programação
linear (em que o ótimo, quando existe, é atingido em um dos
vértices do conjunto viável), temos que x3 = (4, 4)t é a solução
ótima.
Analisemos o ponto x4 = (0, 2)t. Temos que os elementos para a
verificação das condições a serem definidos são:
143
I(x4) = {j ∈ {1, . . . ,m} | atjx4 = bj}
= {2, 3}
r(x4) = |I(x4)|
= 2
AtI =
[ −1 −1
2 0
]
∇f(x4) = AtIλ, λi ≤ 0, λ ∈ Rr(x
4) = R2
(−2,−3)t =
[ −1 −1
2 0
]
(λ1, λ2)
t
(λ1, λ2)
t = (
7
2
,−3
2
)
Logo, x4 = (0, 2)t não satisfaz a condição necessária de primeira
ordem.
9.2 Considere o problema (P):
minimizar f(x)
s.a. Ax ≤ b,
onde A ∈ Rm×n,m < n, b ∈ Rm e considere também o sistema não-
linear (S): {
∇f(x) + Atµ = 0
(ati − bi)µi = 0, i = 1, . . . ,m,
onde At = [a1 . . . am]. Qual é a relação entre as soluções de (P) e (S)?
Sejam x∗ ∈ Rn umminimizador local de (P), I(x∗) := {j ∈ {1, . . . ,m} | atjx∗ =
bj}, r(x∗) := |I(x∗)|, J := {i ∈ {1, . . . , r(x∗)} | λi < 0}.
Pelo teorema 9.2 (p. 73 do livro da Ana), existe λ ∈ Rr(x∗) tal que
∇f(x∗) − AtIλ = 0 e λi ≤ 0 para todo i ∈ {1, . . . , r(x∗)}. Logo,
estendendo λ ∈ Rr(x∗) para µ ∈ Rm, de forma que µi = 0 para atix∗i < bi
(e µi = −λi para atix∗i = bi ), da própria definição de µ segue que:
144
{
∇f(x∗) + Atµ = 0
(ati − bi)µi = 0, i = 1, . . . ,m,
Portanto, se x∗ é solução de (P), então (x∗, µ) (µ como definido anteri-
ormente) será solução de (S). Mais genericamente, o sistema linear de
(S) expressa apenas duas das condições KKT de (P) (a de estacionari-
edade e a de complementaridade). Como a linearidade das restrições é
uma condição de qualificação, temos que todo minimizador x∗ de (P)
irá satisfazer as condições KKT (e por isso (x∗, µ) é solução de (S)).
9.3 Resolva o problema de otimização
(P): minimizar f(x, y)
s.a. 0 ≤ x ≤ 1
0 ≤ y ≤ 1
com f(x, y) = g(x) − x2 + y2, onde g(x) é o valor ótimo da função
objetivo do seguinte problema:
(S): minimizar g(u, v) = u2 + v2
s.a. u+ 2v ≥ x
u, v ≥ 0
Como g(u, v) = u2 + v2 ≥ 0, se x ≤ 0 segue imediatamente que a
solução ótima de (S) é (u∗, v∗)t = (0, 0)t, e portanto g(x) = g(u∗, v∗) =
g(0, 0) = 0.
Analisemos agora o caso x > 0.
Como x > 0, u ≥ 0, v ≥ 0 e as curvas de nível de g(u, v) = u2 + v2 au-
mentam conforme (u, v) se afasta da origem, temos que o minimizador
de g(u, v) deve estar no segmento de reta de u + 2v = x que está no
primeiro quadrante e que está mais próximo da origem. Logo, existe
t∗ ∈ [0, 1] tal que (u∗, v∗)t = (1 − t∗)(0, x
2
)t + t∗(x, 0)t = (t∗x, (1−t
∗)x
2
)t.
O quadrado da distância desses pontos à origem é dado por:
145
d(t) = (tx− 0)2 + ((1− t)x
2
)2
=
5x2
4
t2 − x
2
2
t+
x2
4
Cujo ponto de mínimo para x > 0 é t∗ = − b
2a
=
x2
2
2 5x
2
4
= 1
5
. Logo,
(u∗, v∗)t = (t∗x, (1−t
∗)x
2
)t = (x
5
, 2x
5
)t e então g(x) = g(u∗, v∗) = g(x
5
, 2x
5
) =
x2
5
para x > 0.
Dessa forma, considerando apenas os pontos viáveis de (P) (devido à
restrição 0 ≤ x ≤ 1), obtemos que g(x) = x2
5
. Portanto, (P) se reduz a:
(P): minimizar f(x, y) = g(x)− x2 + y2
= x2(1
5
− 1) + y2
= −4
5
x2 + y2
s.a. 0 ≤ x ≤ 1
0 ≤ y ≤ 1
Portanto, como y2 ≥ 0 e −4
5
x2 ≤ 0, para minimizar f(x, y) basta
minimizar y e maximizar x dentro do conjunto viável.
Logo, a solução de (P) é (x∗, y∗) = (1, 0)t.
9.4 Considere o seguinte problema canalizado:
minimizar f(x)
s.a. ai ≤ xi ≤ bi, i = 1, . . . ,m
Seja x um ponto factível e g = ∇f(x). Seja a direção d definida por
di =
{
0 se (xi = ai e gi ≥ 0) ou (xi = bi e gi ≤ 0)
−gi caso contrário
146
(a) Prove que d é uma direção factível e de descida em x
Temos que o problema em questão é equivalente a:
minimizar f(x)
s.a. −xi ≤ −ai, i = 1, . . . ,m
xi ≤ bi, i = 1, . . . ,m
Nesse caso, temos que A′ =
[ −I
I
]
∈ R2m×m e b′ =
[ −a
b
]
∈
R2m.
Sabemos (pela afirmação 9.3 da p. 67 do livro da Ana) que d ∈ Rn
é factível em x ⇐⇒ a′tj d ≤ 0 para todo j ∈ I(x).
Também sabemos (pela proposição 4.1 da p. 21 do livro da Ana)
que se d ∈ Rn é de descida em x então ∇tf(x)d ≤ 0.
Para cada j = 1, . . . ,m, se j ∈ I(x) então xj = aj. Nesse caso,
temos que:
a′tj d = −dj
Se gj ≥ 0, temos (xj = aj e gj ≥ 0), de onde vem dj = 0 e
portanto a′tj d = −dj = 0 ≤ 0.
Se gj ≤ 0, vale o caso contrário da definiçãode dj (pois (xj =
aj e gj ≤ 0) ), de onde vem dj = −gj e portanto a′tj d = −dj =
−(−gj) = gj ≤ 0.
Para cada j = m+ 1, . . . , 2m, se j ∈ I(x) então xj−m = bj. Nesse
caso, temos que:
a′tj d = dj−m
Se gj−m ≤ 0, temos (xj−m = bj−m e gj−m ≤ 0), de onde vem
dj−m = 0 e portanto a′tj d = dj−m = 0 ≤ 0.
Se gj−m ≥ 0, vale o caso contrário da definição de dj−m (pois
(xj−m = bj−m e gj ≥ 0) ), de onde vem dj−m = −gj−m e portanto
a′tj d = dj−m = −gj−m ≤ 0.
147
Portanto, d é factível em x.
Temos também que:
∇tf(x)d =
n∑
i=1
gidi
Como di = 0 ⇒ gidi = 0 ≤ 0 e di = −gi ⇒ gidi = −g2i ≤ 0. Se x
não é estacionário, então gi 6= 0 para pelo menos um i e daí vem
que −g2i < 0⇒
∑n
i=1 gidi < 0. Logo, d é direção de descida em x
(b) Prove que d = 0 se e somente se x satisfaz as condições de otima-
lidade de primeira ordem;
⇐ Suponhamos que x satisfaz a condição necessária de primeira
ordem. Sejam I := {j ∈ {1, . . . ,m} | (a′j)tx = bj} = {i1, . . . , ir(x)},
r(x) := |I|. Logo (pelo teorema 9.2 da p. 73 do livro da Ana),
existe λ′ ∈ Rr(x) tal que ∇f(x) = A′tIλ′ =
r(x)∑
k=1
λ′ka
′
ik
e λ′i ≤ 0 para
todo i ∈ {1, . . . , r(x)}.
Associando multiplicadores nulos para as restrições não ativas,
podemos estender λ′ ∈ Rr(x) para um λ ∈ R2m de tal forma que:
∇f(x) = A′tλ
=
[ −I
I
]t
λ
=
[ −I I ]λ
= (−λ1 + λm+1, . . . ,−λi + λi+m, . . . ,−λm + λ2m)t
Como g = ∇f(x), segue então que:
−gi = λi − λi+m ∀i = 1, . . . ,m
Pelas condições de folgas complementares, para todo i = 1, . . . ,m
148
sabemos também que:
λi(ai − xi) = 0
λi+m(xi − bi) = 0
Da definição de d, temos que:
di =
{
0 se (xi = ai e gi ≥ 0) ou (xi = bi e gi ≤ 0)
−gi caso contrário
Portanto para provar que d = 0, basta provar que di = −gi =
−(∇f(x))i = − ∂f∂xi = 0 se (xi 6= ai ou gi < 0) e (xi 6= bi ou gi >
0). Para o caso em que gi = 0, então essa condição apenas pode
valer se (xi 6= ai) e (xi 6= bi).
Supondo então (xi 6= ai) e (xi 6= bi), isso significa que as restrições
ai−xi ≤ 0 e xi−bi ≤ 0 não estão ativas, e portanto os respectivos
multiplicadores λi (correspondente a ai − xi ≤ 0) e λi+m (corres-
pondente a xi − bi ≤ 0) deve ser nulos (pelas condições de folgas
complementares). Daí segue que di = −gi = λi−λi+m = 0−0 = 0.
Portanto, d = 0.
⇒ Suponhamos que d = 0. Da definição de d, temos que:
di =
{
0 se (xi = ai e gi ≥ 0) ou (xi = bi e gi ≤ 0)
−gi = 0 caso contrário
Seja λ ∈ R2m− .
Pela definição de d, temos que di = −gi quando (xi 6= ai ou gi <
0) e (xi 6= bi ou gi > 0). Como gi = 0 nesse caso, então essa
condição apenas pode valer se (xi 6= ai) e (xi 6= bi), ou seja, gi = 0
quando nenhuma das restrições ai − xi ≤ 0 (correspondente ao
multiplicador λi) ou xi − bi ≤ 0 (correspondente ao multiplicador
λi+m) está ativa em x . Portanto, para i tal que di = −gi = 0,
definamos λi = λi+m = 0.
Se gi > 0, definimos λi = −gi e λm+i = 0. Se gi < 0, definimos
λi = 0 e λm+i = gi.
Logo, pela definição de λ temos λi ≤ 0 ∀i = 1, . . . ,m e
149
∇f(x) = (−λ1 + λm+1, . . . ,−λi + λi+m, . . . ,−λm + λ2m)t
=
[ −I I ]λ
=
[ −I
I
]t
λ
= A′tλ
Portanto, pelo teorema 9.1 (p. 69 do livro da Ana), x satisfaz a
condição de otimalidade de primeira ordem.
(c) Usando essa direção e x0 = (0, 3)t ache a solução do seguinte
problema:
minimizar f(x, y) = x2 + y2
s.a. a1 = 0 ≤ x ≤ b1 = 4
a2 = 1 ≤ y ≤ b2 = 3
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = x2 + y2
s.a. −x+ 0y ≤ 0
x+ 0y ≤ 4
0x− y ≤ −1
0x+ y ≤ 3
Nesse caso, temos que A =
−1 0
1 0
0 −1
0 1
∈ R4×2 e b =
0
4
−1
3
∈
R2m.
Temos que o gradiente de f é dado por:
150
∇f(x, y) = (∂f
∂x
,
∂f
∂y
)t
= (2x, 2y)t
Além disso, a hessiana de f é dada por:
∇2f(x, y) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
2 0
0 2
]
Como∇2f(x, y) > 0, a condição de otimalidade de segunda ordem
é satisfeita para todos (x, y) ∈ R2.
Seja d a direção dada pelo enunciado, isto é:
di =
{
0 se (xi = ai e gi ≥ 0) ou (xi = bi e gi ≤ 0)
−gi = 0 caso contrário
Como x01 = 0 = a1 e g1 = 2(0) = 0 ≤ 0, temos d1 = 0. Como
x02 = 3 = b2 e g2 = 2(3) = 6 > 0, temos d2 = −g2 = −6. Poranto,
d = (0,−6)t.
Temos que I(x0) = 1, 4. Para i 6∈ I(x0), temos
at2d = (1, 0)
t(0,−6) = 0
at3d = (0,−1)t(0,−6) = 6 > 0
Portanto, o tamanho máximo do passo é:
151
α¯ =
b3 − at3x0
at3d
=
−1− (0,−1)t(0, 3)
(0,−1)t(0,−6)
=
−1 + 3
6
=
1
3
Seja α ∈ (0, α¯ = 1
3
], e definimos φ(α) = f(x0 + αd). Temos que:
φ(α) = f(x0 + αd)
= f((0, 3)t + α(0,−6)t)
= f(0, 3− 6α)
= 02 + (3− 6α)2
= 36α2 − 36α + 9
Como
φ′(α) = 72α− 36
< 0 para α ∈ (0, α¯ = 1
3
]
, temos que α∗ = α¯ = 1
3
é o minimizador de φ em (0, α¯]
Logo, x∗ = x0 + αd = (0, 3 − 61
3
)t = (0, 1)t é um ponto viável.
Temos que os elementos para a verificação das condições de oti-
malidade a serem definidos são:
152
I(x∗) = {j ∈ {1, . . . ,m} | atjx∗ = bj}
= {1, 3}
r(x∗) = |I(x∗)|
= 2
AtI =
[ −1 0
0 −1
]
∇f(x∗) = AtIλ, λi ≤ 0, λ ∈ Rr(x
∗) = R2
(0, 1)t =
[ −1 0
0 −1
]
(λ1, λ2)
t
(λ1, λ2)
t = (0,−1)t
Portanto, x∗ = (0, 1)t satisfaz as condições de otimalidade de pri-
meira e segunda ordem, e portanto é minimizador local de f no
conjunto viável. Mais ainda, x∗ é minimizador global de f no
conjunto viável, pois f(x, y) = x2 + y2, com x2 ≥ 0 e y2 ≥ 0.
Logo, para minimizar f , basta minimizar x e y individualmente
no conjunto viável, o que implica que x∗ = (0, 1)t é a solução
ótima.
9.5 Considere o seguinte problema:
minimizar f(x)
s.a. at1x ≤ b1
at2x ≤ b2
Suponha que as duas restrições são ativas em x¯ e que ∇f(x¯) é combi-
nação linear positiva de a1 e a2. Construa duas direções factíveis e de
descida diferentes em x¯. Justifique!
Como as duas restrições são ativas em x¯, temos at1x¯ ≤ b1 e at1x¯ ≤ b1.
Como∇f(x¯) é combinação linear positiva de a1 e a2, existem λ1, λ2 > 0
tais que ∇f(x¯) = λ1a1 + λ2a2.
Sabemos (pela afirmação 9.3 da p. 67 do livro da Ana) que d ∈ Rn é
factível em x¯ ⇐⇒ atjd ≤ 0 para todo j ∈ I(x¯) = {1, 2}.
153
Sejam Z1 uma matriz ortogonal (obtida via processo de Gram-Schimidt)
cujas colunas formam uma base de Nu([a1]), e Z2 uma matriz ortogo-
nal (obtida via processo de Gram-Schimidt) cujas colunas formam uma
base de Nu([a2]).
Definamos d1 = PNu([a1])(−∇f(x¯)) = −Z1Zt1∇f(x¯) e d2 = PNu([a2])(−∇f(x¯)) =
−Z2Zt2∇f(x¯).
Supondo a1 6= a2, temos Z1 6= Z2 e portanto d1 6= d2.
Como d1, d2 são projeções ortogonais sobre Nu([a1]), Nu([a2]) (respec-
tivamente), para k = 1, 2 temos:
dk ⊥ −dk −∇f(x¯)
dtk(−dk −∇f(x¯)) = 0
−dtkdk −∇tf(x¯)dk = 0
∇tf(x¯)dk = −dtkdk
∇tf(x¯)dk = −‖dk‖2
=< 0
Logo, dk (k = 1, 2) é direção de descida. Portanto, temos que:
∇tf(x¯)d1 < 0
(λ1a1 + λ2a2)
td1 < 0
λ1a
t
1d1 + λ2a
t
2d1 < 0
(d1 ∈ Nu([a1])⇒ at1d1 = 0)
λ2a
t
2d1 < 0
at2d1 < 0 (pois λ2 > 0)
Logo, como at1d1 = 0 ≤ 0 e at2d1 < 0 ≤ 0, temos que d1 também é uma
direção factível.
Analogamente para d2, segue que:
154
∇tf(x¯)d2 < 0
(λ1a1 + λ2a2)
td2 < 0
λ1a
t
1d2 + λ2a
t
2d2 < 0
(d2 ∈ Nu([a2])⇒ at2d2 = 0)
λ1a
t
1d2 < 0
at1d2 < 0 (pois λ1 > 0)
Logo, como at1d2 = 0 ≤ 0 e at2d2 < 0 ≤ 0, temos que d2 também é uma
direção factível.
Portanto, d1 e d2 são duas direções diferentes (se a1 não é múltiplo de
a2), de descida e factíveis.
9.6 Considere os problemas primal e dual de programação linear:
minimizar ctx maximizar bty
s.a. Ax = b s.a. Aty ≤ c
x ≥ 0
Seja x˜ solução do primal.
parcialmente resolvido
(a) Prove que bty ≤ ctx para quaisquer x e y factíveis;
Como x, y são factíveis, temos Ax = b, x ≥ 0 e Aty ≤ c. Daí vem
que:
bty = (Ax)ty
= xtAty
= xtAty
(x ≥ 0 e Aty ≤ c⇒ xtAty ≤ xtc)
≤ xtc
= ctx
(c) Prove que ctx˜ = btλ˜.
Observemos que o dual equivale a
155minimizar g(x) = bty
s.a. c2(x) = A
ty − c ≤ 0
Definamos c2(x) = A
ty − c. Como a linearidade das restrições é
uma condição de qualificação, se y∗ é um mínimizador do dual,
pelo teorema 2.4.1 do livro do Martínez (p. 22, condições KKT
gerais) existem únicos µ∗i > 0 para todo i ∈ I(y∗) (µ∗i = 0 para
todo i 6∈ I(y∗) ) tais que :
µi((A
t)iy
∗ − ci) = 0, i = 1, . . . , p
Portanto,
ctx˜ =
∑
i∈I(x˜)
x˜ici
(ci = aiy
∗ ⇐⇒ µi > 0 e ci 6= aiy∗ ⇐⇒ µi = 0)
=
∑
i∈I(x˜)
x˜i(A
t)iy
∗
= (
∑
i∈I(x˜)
x˜i(A
t)i)y
∗
= x˜tAty∗
= (Ax˜)ty∗
= bty∗
Como y∗ = λ˜, segue que ctx˜ = btλ˜.
(b) Prove que o vetor dos multiplicadores de Lagrange λ˜ associado às
restrições de igualdade em x˜ é solução ótima do dual;
Do item a) temos que bty ≤ ctx para quaisquer x, y viáveis. Em
particular, se y∗ é a solução do dual e x˜ é a solução do primal,
temos que bty∗ ≤ ctx˜. Pelo item c) temos que ctx˜ = btλ˜. Logo,
bty∗ ≤ ctx˜ = btλ˜.
156
Observemos que o primal equivale a
minimizar f(x) = ctx
s.a. h(x) = Ax− b = 0
c(x) = −x ≤ 0
Definamos h(x) = Ax − b e c(x) = −x. Como a linearidade das
restrições é uma condição de qualificação, se x˜ é um mínimizador
do primal, pelo teorema 2.4.1 do livro do Martínez (p. 22, con-
dições KKT gerais) existem únicos λ˜ ∈ Rm e µ˜i > 0 para todo
i ∈ I(x˜) (µ˜i = 0 para todo i 6∈ I(x˜) ) tais que :
∇f(x˜)−
m∑
i=1
λ˜i∇hi(x˜) +
p∑
i=1
µ˜i∇ci(x˜) = 0
c−
m∑
i=1
λ˜iai +
p∑
i=1
µ˜i(−1) = 0
c− Atλ˜− 1tµ˜ = 0
Atλ˜ = c− 1tµ˜
(1tµ˜ ≥ 0⇒)
Atλ˜ ≤ c
Logo, λ˜ é viável no dual e é tal que bty∗ ≤ ctx˜ = btλ˜. Como o dual
é um problema de maximização, segue que bty∗ = btλ˜, e portanto
y∗ = λ˜ (ou seja, λ˜ é a solução do dual).
9.7 Considere o problema de programação quadrática
minimizar f(x) = 1
2
xtBx+ ctx
s.a. Ax = b
x ≥ 0
Seja x˜ uma solução regular do problema, e λ˜ o vetor de multiplicadores
de Lagrange associado às restriçoes de igualdade. Prove que
157
f(x˜) =
1
2
(ctx˜+ btλ˜)
Observemos que esse problema equivale a
minimizar f(x) = 1
2
xtBx+ ctx
s.a. h(x) = Ax− b = 0
c(x) = −x ≤ 0
Definamos h(x) = Ax− b e c(x) = −x. Como x˜ é uma solução regular
do problema, pelo teorema 2.4.1 do livro do Martínez (p. 22, condições
KKT gerais) existem únicos λ˜ ∈ Rm e µ˜i > 0 para todo i ∈ I(x˜)
(µ˜i = 0 para todo i 6∈ I(x˜) ) tais que :
∇f(x˜)−
m∑
i=1
λ˜i∇hi(x˜) +
p∑
i=1
µ˜i∇ci(x˜) = 0
Bx˜+ c−
m∑
i=1
λ˜iai +
p∑
i=1
µ˜i(−1) = 0
Bx˜+ c− Atλ˜− 1tµ˜ = 0
⇒
x˜tBx˜+ x˜tc− x˜tAtλ˜− 1tµ˜ = 0
x˜tBx˜+ ctx˜− (Ax˜)tλ˜− 1tµ˜ = 0
x˜tBx˜+ ctx˜− btλ˜− 1tµ˜ = 0
Para bi 6= 0 (i = 1, . . . , n), temos que x˜i = 0 não é solução (pois
0 = atix˜i = bi 6= 0), e então µ˜ = 0. Logo,
x˜tBx˜+ ctx˜− btλ˜ = 0
Queremos provar que:
158
f(x˜) =
1
2
(ctx˜+ btλ˜)
1
2
x˜tBx˜+ ctx˜ =
1
2
(ctx˜+ btλ˜)
x˜tBx˜+ 2ctx˜ = ctx˜+ btλ˜
x˜tBx˜+ ctx˜− btλ˜ = 0
Sendo que a última linha é consequência das condições KKT. Logo,
f(x˜) = 1
2
(ctx˜+ btλ˜).
9.8 Resolva o seguinte problema de otimização
maximizar P (x) = x1x2 . . . xn
s.a. x1 + x2 + . . .+ xn = c
x ≥ 0
Deduza as seguintes desigualdades entre as médias aritmética e geomé-
trica:
1
n
n∑
i=1
xi ≥
(
n∏
i=1
xi
)1/n
Como − ln(x) é uma função estritamente decrescente para x ≥ 0, temos
que o problema original é equivalente a:
minimizar f(x) := − ln(P (x)) = −
n∑
i=1
ln(xi)
s.a. x1 + x2 + · · ·+ xn − c = 0
−x ≤ 0
Como xn = c−x1−· · ·−xn−1, então o problema anterior é equivalente
ao problema irrestrito:
159
minimizar g(x) := − ln(c− x1 − · · · − xn−1)−
n−1∑
i=1
ln(xi)
Este problema possui solução (global), já que g é contínua e coerciva
em Rn−1, que é fechado e não vazio. Logo, se x∗ é minimizador de g,
temos que:
∇g(x∗) = 0
∂g
∂xi
(x∗) = 0 ∀i = 1, . . . , n− 1
− 1
x∗i
− 1
c− x∗1 − · · · − x∗n−1
(−1) = 0 ∀i = 1, . . . , n− 1
x∗i = c− x∗1 − · · · − x∗n−1 ∀i = 1, . . . , n− 1
2 1 · · · 1
1 2 · · · 1
.
.
.
.
.
.
.
.
.
.
.
.
1 · · · 1 2
x∗1
x∗2
.
.
.
x∗n
=
c
c
.
.
.
c
x∗i =
c
n
∀i = 1, . . . , n− 1
Logo, como x∗ é o minimizador de g, temos :
160
g(x∗) ≤ g(x) ∀x ∈ Rn−1
− ln(c− c
n
− · · · − c
n
)−
n−1∑
i=1
ln(
c
n
) ≤ − ln(xn)−
n−1∑
i=1
ln(xi)
− ln(c− (n− 1)c
n
)−
n−1∑
i=1
ln(
c
n
) ≤ −
n∑
i=1
ln(xi)
− ln( c
n
)−
n−1∑
i=1
ln(
c
n
) ≤ −
n∑
i=1
ln(xi)
−
n∑
i=1
ln(
c
n
) ≤ −
n∑
i=1
ln(xi)
− ln(
n∏
i=1
c
n
) ≤ − ln(
n∏
i=1
xi)
ln([
c
n
]n) ≥ ln(
n∏
i=1
xi)
[
c
n
]n ≥
n∏
i=1
xi
c
n
≥
(
n∏
i=1
xi
)1/n
(x1 + x2 + · · ·+ xn = c, c ∈ R+)
1
n
n∑
i=1
xi ≥
(
n∏
i=1
xi
)1/n
∀x ∈ Rn
9.9 Suponha que S := {x ∈ Rn | Ax = b, x ≥ 0} é não-vazio, onde
A ∈ Rm×n e b ∈ Rm. Seja 0 ≤ z ∈ Rn tal que At(Az − b) = γ ≥ 0 e
ztγ = 0. Prove que Az = b.
parcialmente resolvido
Suponhamos que A tenha posto completo. Pelo exercício 1.2, AtA é
não-singular. Portanto, temos que:
161
At(Az − b) = γ
AtAz − Atb = γ
AtAz = γ + Atb
z = (AtA)−1(γ + Atb)
Az = A(AtA)−1(γ + Atb)
Az = A(AtA)−1γ + A(AtA)−1Atb
Além disso, também vale que:
At(Az − b) = γ
AtAz − Atb = γ
ztAtAz − ztAtb = ztγ = 0
(Az)tAz − (Az)tb = 0
(Az)t(Az − b) = 0
(se Aiz 6= 0 ∀i)
Az − b = 0
Az = b
1.10 Capítulo 10 - Método de restrições ativas
10.1 Resolva graficamente o problema
minimizar x2 − xy + y2 − 3x
s.a. x+ y ≤ 4
x, y ≥ 0
usando um método de restrições ativas a partir do ponto x0 = (0, 0)t
Obs.: Como não existe um modo �puramente gráfico� de se resolver o
problema, então a resolução foi feita algebricamente (já que a parte grá-
fica serve apenas como uma visualização geométrica do procedimento
algébrico).
162
O conjunto viável é dado pela figura a seguir:
Figura 9: Conjunto viável gerado pelo WolframAlpha .
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = x2 − xy + y2 − 3x
s.a. x+ y ≤ 4
−x+ 0y ≤ 0
0x− y ≤ 0
Nesse caso, temos que A =
1 1−1 0
0 −1
∈ R3×2 e b =
40
0
∈ R3.
Temos que o gradiente de f é dado por:
∇f(x, y) = (∂f
∂x
,
∂f
∂y
)t
= (2x− y − 3,−x+ 2y)t
Além disso, a hessiana de f é dada por:
163
∇2f(x, y) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
2 −1
−1 2
]
De acordo com o algoritmo 10.1 (método de restrições ativas) da página
77 do livro da Ana, as iterações (a partir de x0 = (0, 0)t) são dadas
por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {2, 3}
r(x0) = |I0|
= 2
AI0 =
[ −1 0
0 −1
]
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(−3, 0)t =
[ −1 0
0 −1
]
(λ1, λ2)
t
(λ1, λ2)
t = (3, 0)t
Como o sistema tem solução, vamos ao passo iii.
1.iii Verificar os sinais de λi∀i ∈ {1, . . . , r(xk)}
Temos que λ1 = 3 > 0. Logo, vamos ao passo vii.
1.vii Escolher uma direção factível e de descida dk em x
k
Seja A˜I a matriz obtida retirando a linha aij correspondente ao
multiplicador λj > 0. Como λ1 = 3 multiplica os elementos da
164
coluna 1 de AtI0 no sistema do passo ii, então λ1 = 3 multiplica
os elementos da linha 1 de AI0 , e portanto A˜I0 =
[
0 −1 ]
(que
é AI0 sem a linha 1).
Seja agora
d0 = PNu(A˜I0 )
(−∇f(x0))
= (I − A˜tI0(A˜I0A˜tI0)−1A˜I0)(3, 0)t
=
[
1 0
0 0
]
(3, 0)t
= (3, 0)t
Pelo item ii) da prova do teorema 9.1 (p.69 do livro da Ana),
temos que d0 é uma direção factível e de descida em x
0
.
1.viii Igual ao passo v: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I0 = {2, 3}⇒ Ic0 = {1}, as linhas a serem analisadas são:
at1d0 = (1, 1)
t(3, 0) = 3 > 0
Portanto, o tamanho máximo do passo é:
α¯ =
b1 − at1x0
at1d0
=
4− (1, 1)t(0, 0)
(1, 1)t(3, 0)
=
4
3
1.ix Realizar busca linear em (0, α¯] garantindo descenso suficiente. Fa-
zer xk+1 = xk + αkdk, k = k + 1 e ir ao passo 1 .
Seja α ∈ (0, α¯ = 4
3
], e definimos φ(α) = f(x0 + αd0). Temos que:
165
φ(α) = f(x0 + αd0)
= f((0, 0)t + α(3, 0)t)
= f(3α, 0)
= 9α2 − 9α
Logo, o minimizador de φ(α) é α0 = − b2a = − −92(9) = 12 ∈ (0, α¯].
Daí vem que
x1 = x0 + α0d0
= (0, 0)t +
1
2
(3, 0)t
= (
3
2
, 0)t
2.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I1 = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {3}
r(x1) = |I1|
= 1
AI1 =
[
0 −1 ]
Como I1 6= ∅, vamos ao passo ii.
2.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x1) = AtI1λ
(0,−3
2
)t =
[
0
−1
]
λ
λ =
3
2
Como o sistema tem solução, vamos ao passo iii.
166
2.iii Verificar os sinais de λi∀i ∈ {1, . . . , r(xk)}
Temos que λ = 3
2
> 0. Logo, vamos ao passo vii.
2.vii Escolher uma direção factível e de descida dk em x
k
Seja d1 = −∇f(x1) = (0, 32)t.
Como r(x1) = 1 , pelo item ii) da prova do teorema 9.1 (p.69 do
livro da Ana), temos que d1 é uma direção factível e de descida
em x1.
2.viii Igual ao passo v: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I1 = {3} ⇒ Ic1 = {1, 2}, as linhas a serem analisadas são:
at1d1 = (1, 1)
t(0,
3
2
) =
3
2
> 0
at2d1 = (−1, 0)t(0,
3
2
) = 0 ≤ 0
Portanto, o tamanho máximo do passo é:
α¯ =
b1 − at1x1
at1d1
=
4− (1, 1)t(3
2
, 0)
(1, 1)t(0, 3
2
)
=
5
2
3
2
=
5
3
2.ix Realizar busca linear em (0, α¯] garantindo descenso suficiente. Fa-
zer xk+1 = xk + αkdk, k = k + 1 e ir ao passo 1 .
Seja α ∈ (0, α¯ = 5
3
], e definimos φ(α) = f(x1 + αd1). Temos que:
167
φ(α) = f(x1 + αd1)
= f((
3
2
, 0)t + α(0,
3
2
)t)
= f(
3
2
, α
3
2
)
=
9
4
α2 − 9
4
α− 9
4
Logo, o minimizador de φ(α) é α1 = − b2a = −
− 9
4
2 9
4
= 1
2
∈ (0, α¯].
Daí vem que
x2 = x1 + α1d1
= (
3
2
, 0)t +
1
2
(0,
3
2
)t
= (
3
2
,
3
4
)t
3.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I2 = {j ∈ {1, . . . ,m} | atjx2 = bj}
= ∅
∇f(x2) = (−3
4
, 0)t
Como I2 = ∅ e ∇f(x2) 6= (0, 0)t, vamos ao passo vii.
3.vii Escolher uma direção factível e de descida em dk em x
k
Como I2 = ∅, x2 não está na fronteira do conjunto viável e por-
tanto qualquer direção é factível. Seja d2 = (
1
2
, 1
4
)t. Temos que:
∇tf(x2)d2 = (−3
4
, 0)t(
1
2
,
1
4
)
= −3
8
< 0
168
Logo, d2 = (
1
2
, 1
4
)t é factível e de descida em x2.
3.viii Igual ao passo v: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I2 = ∅ ⇒ Ic2 = {1, 2, 3}, as linhas a serem analisadas são:
at1d2 = (1, 1)
t(
1
2
,
1
4
) =
3
4
> 0
at2d2 = (−1, 0)t(
1
2
,
1
4
) = −1
2
≤ 0
at3d2 = (0,−1)t(
1
2
,
1
4
) = −1
4
≤ 0
Portanto, o tamanho máximo do passo é:
α¯ =
b1 − at1x2
at1d2
=
4− (1, 1)t(3
2
, 3
4
)
(1, 1)t(1
2
, 1
4
)
=
7
4
3
4
=
7
3
3.ix Realizar busca linear em (0, α¯] garantindo descenso suficiente. Fa-
zer xk+1 = xk + αkdk, k = k + 1 e ir ao passo 1 .
Seja α ∈ (0, α¯ = 7
3
], e definimos φ(α) = f(x2 + αd2). Temos que:
φ(α) = f(x2 + αd2)
= f((
3
2
,
3
4
)t + α(
1
2
,
1
4
)t)
= f(
3 + α
2
,
3 + α
4
)
=
3
16
α2 − 3
8
α− 45
16
169
Logo, o minimizador de φ(α) é α2 = − b2a = −
− 3
8
2 3
16
= 1 ∈ (0, α¯].
Daí vem que
x3 = x2 + α2d2
= (
3
2
,
3
4
)t + 1(
1
2
,
1
4
)t
= (2, 1)t
3.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I3 = {j ∈ {1, . . . ,m} | atjx3 = bj}
= ∅
∇f(x3) = (0, 0)t
Como I3 = ∅ e ∇f(x3) = (0, 0)t, encontramos um ponto estacio-
nário viável.
10.2 Considere o problema de maximizar f(x, y) = xy sujeita a x + y ≥ 1
e x + 2y ≤ 2. Aplique um método de restrições ativas, algébrica e
geometricamente, a partir dos seguintes pontos, até encontrar a solução.
Obs.: Como não existe um modo �puramente gráfico� de se resolver o
problema, então a resolução foi feita algebricamente (já que a parte grá-
fica serve apenas como uma visualização geométrica do procedimento
algébrico).
O conjunto viável é dado pela figura a seguir:
Figura 10: Conjunto viável gerado pelo WolframAlpha .
170
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = −xy
s.a. −x− y ≤ −1
x+ 2y ≤ 2
Nesse caso, temos que A =
[ −1 −1
1 2
]
∈ R2×2 e b =
[ −1
2
]
∈ R2.
Temos que o gradiente de f é dado por:
∇f(x, y) = (∂f
∂x
,
∂f
∂y
)t
= (−y,−x)t
Além disso, a hessiana de f é dada por:
∇2f(x, y) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
0 −1
−1 0
]
(a) (1, 0)t
De acordo com o algoritmo 10.1 (método de restrições ativas) da
página 77 do livro da Ana, as iterações (a partir de x0 = (1, 0)t)
são dadas por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {1}
r(x0) = |I0|
= 1
AI0 =
[ −1 −1 ]
171
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(0,−1)t =
[ −1
−1
]
λ
não tem solução
Como o sistema não tem solução, vamos ao passo iv.
1.iv Achar dk ∈ Nu(AI0) tal que ∇tf(xk)dk < 0
Seja agora
d0 = PNu(AI0 )(−∇f(x0))
= (I − AtI0(AI0AtI0)−1AI0)(0, 1)t
=
[
1
2
−1
2−1
2
1
2
]
(0, 1)t
= (−1
2
,
1
2
)t
Pelo item ii) da prova do teorema 9.1 (p.69 do livro da Ana),
temos que d0 é uma direção factível e de descida em x
0
.
1.v Determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I0 = {1} ⇒ Ic0 = {2}, as linhas a serem analisadas são:
at2d0 = (1, 2)
t(−1
2
,
1
2
) =
1
2
> 0
Portanto, o tamanho máximo do passo é:
172
α¯ =
b2 − at2x0
at2d0
=
2− (1, 2)t(1, 0)
(1, 2)t(−1
2
, 1
2
)
=
1
1
2
= 2
1.vi Realizar busca linear em (0, α¯] garantindo descenso suficiente..
Seja α ∈ (0, α¯ = 2], e definimos φ(α) = f(x0 + αd0). Temos
que:
φ(α) = f(x0 + αd0)
= f((1, 0)t + α(−1
2
,
1
2
)t)
= f(1− α
2
,
α
2
)
=
1
4
α2 − 1
2
α
Logo, o minimizador de φ(α) é α0 = − b2a = −
− 1
2
2 1
4
= 1 ∈ (0, α¯].
Daí vem que
x1 = x0 + α0d0
= (1, 0)t + 1(−1
2
,
1
2
)t
= (
1
2
,
1
2
)t
2.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
173
I1 = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {1}
r(x1) = |I1|
= 1
AI1 =
[ −1 −1 ]
Como I1 6= ∅, vamos ao passo ii.
2.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x1) = AtI1λ
(−1
2
,−1
2
)t =
[ −1
−1
]
λ
λ =
1
2
Como o sistema tem solução, vamos ao passo iii.
2.iii Verificar o sinal de λ
Como λ = 1
2
> 0, vamos ao passo vii
2.vii Escolher uma direção factível e de descida dk em x
k
Seja d1 = (
1
2
, 0)t. Temos que:
∇tf(x1)d1 = (−1
2
,−1
2
)t(
1
2
, 0)
= −1
4
< 0
Logo, d1 é de descida em x
1
. Para j ∈ I(x1) = {1}, temos
também que:
atj = a
t
1d = (−1,−1)t(
1
2
, 0) = −1
2
≤ 0
174
Logo, d1 é factível em x
1
(pela afirmação 9.3 da p. 67 do livro
da Ana).
Portanto, d1 = (
1
2
, 0)t é uma direção factível e de descida em
x1.
2.viii Igual ao passo 5: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I1 = {1} ⇒ Ic1 = {2}, as linhas a serem analisadas são:
at2d1 = (1, 2)
t(
1
2
, 0) =
1
2
> 0
Portanto, o tamanho máximo do passo é:
α¯ =
b2 − at2x1
at2d1
=
2− (1, 2)t(1
2
, 1
2
)
(1, 2)t(1
2
, 0)
=
1
2
1
2
= 1
2.ix Realizar buscalinear em (0, α¯] garantindo descenso suficiente.
Fazer xk+1 = xk + αkdk, k = k + 1 e ir ao passo 1.
Seja α ∈ (0, α¯ = 1], e definimos φ(α) = f(x0 + αd0). Temos
que:
φ(α) = f(x1 + αd1)
= f((
1
2
,
1
2
)t + α(
1
2
, 0)t)
= f(
1 + α
2
,
1
2
)
= −1
4
α− 1
4
Logo, o minimizador de φ(α) é α1 = 1 ∈ (0, α¯].
Daí vem que
175
x2 = x1 + α1d1
= (
1
2
,
1
2
)t + 1(
1
2
, 0)t)
= (1,
1
2
)t
3.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I2 = {j ∈ {1, . . . ,m} | atjx2 = bj}
= {2}
r(x2) = |I2|
= 1
AI2 =
[
1 2
]
Como I2 6= ∅, vamos ao passo ii.
3.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x2) = AtI2λ
(−1
2
,−1)t =
[
1
2
]
λ
λ = −1
2
Como o sistema tem solução, vamos ao passo iii.
3.iii Verificar o sinal de λ
Como λ = −1
2
≤ 0, x2 = (1, 1
2
)t é estacionário e o algoritmo
para.
(b) (2, 0)t
De acordo com o algoritmo 10.1 (método de restrições ativas) da
página 77 do livro da Ana, as iterações (a partir de x0 = (2, 0)t)
são dadas por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
176
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {2}
r(x0) = |I0|
= 1
AI0 =
[
1 2
]
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(0,−2)t =
[
1
2
]
λ
não tem solução
Como o sistema não tem solução, vamos ao passo iv.
1.iv Achar dk ∈ Nu(AI0) tal que ∇tf(xk)dk < 0
Seja agora
d0 = PNu(AI0 )(−∇f(x0))
= (I − AtI0(AI0AtI0)−1AI0)(0, 2)t
=
[
4
5
−2
5−2
5
1
5
]
(0, 2)t
= (−4
5
,
2
5
)t
Pelo item ii) da prova do teorema 9.1 (p.69 do livro da Ana),
temos que d0 é uma direção factível e de descida em x
0
.
1.v Determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I0 = {2} ⇒ Ic0 = {1}, as linhas a serem analisadas são:
at1d0 = (−1,−1)t(−
4
5
,
2
5
) =
2
5
> 0
177
Portanto, o tamanho máximo do passo é:
α¯ =
b1 − at1x0
at1d0
=
−1− (−1,−1)t(2, 0)
(−1,−1)t(−4
5
, 2
5
)
=
1
2
5
=
5
2
1.vi Realizar busca linear em (0, α¯] garantindo descenso suficiente..
Seja α ∈ (0, α¯ = 5
2
], e definimos φ(α) = f(x0 + αd0). Temos
que:
φ(α) = f(x0 + αd0)
= f((2, 0)t + α(−4
5
,
2
5
)t)
= f(2− 4α
5
,
2α
5
)
=
8
25
α2 − 4
5
α
Logo, o minimizador de φ(α) é α0 = − b2a = −
− 4
5
2 8
25
= 5
4
∈ (0, α¯].
Daí vem que
x1 = x0 + α0d0
= (2, 0)t +
5
4
(−4
5
,
2
5
)t
= (1,
1
2
)t
2.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
178
I1 = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {2}
r(x1) = |I1|
= 1
AI1 =
[
1 2
]
Como I1 6= ∅, vamos ao passo ii.
2.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x1) = AtI1λ
(−1
2
,−1)t =
[
1
2
]
λ
λ = −1
2
Como o sistema tem solução, vamos ao passo iii.
2.iii Verificar o sinal de λ
Como λ = −1
2
≤ 0, x1 = (1, 1
2
)t é estacionário e o algoritmo
para.
10.3 Resolva algébrica ou graficamente o problema abaixo por um método
de restrições ativas, tomando como ponto inicial (2, 1)t e justificando
todos os passos.
minimizar (x+ 1)2 + (y − 1)2
s.a. x+ y ≥ 1
x+ y ≤ 3
x, y ≥ 0
O conjunto viável é dado pela figura a seguir:
179
Figura 11: Conjunto viável gerado pelo WolframAlpha .
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = (x+ 1)2 + (y − 1)2
s.a. −x− y ≤ −1
x+ y ≤ 3
−x+ 0y ≤ 0
0x− y ≤ 0
Nesse caso, temos que A =
−1 −1
1 1
−1 0
0 −1
∈ R4×2 e b =
−1
3
0
0
∈ R4.
Temos que o gradiente de f é dado por:
∇f(x, y) = (∂f
∂x
,
∂f
∂y
)t
= (2x+ 2, 2y − 2)t
Além disso, a hessiana de f é dada por:
180
∇2f(x, y) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
2 0
0 2
]
De acordo com o algoritmo 10.1 (método de restrições ativas) da página
77 do livro da Ana, as iterações (a partir de x0 = (2, 1)t) são dadas
por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {2}
r(x0) = |I0|
= 1
AI0 =
[
1 1
]
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(6, 0)t =
[
1 1
]
λ
(não tem solução)
Como o sistema não tem solução, vamos ao passo iv.
1.iv Achar dk ∈ Nu(AI0) tal que ∇tf(xk)dk < 0
Seja agora
181
d0 = PNu(AI0 )(−∇f(x0))
= (I − AtI0(AI0AtI0)−1AI0)(−6, 0)t
=
[
1
2
−1
2−1
2
1
2
]
(−6, 0)t
= (−3, 3)t
Pelo item ii) da prova do teorema 9.1 (p.69 do livro da Ana),
temos que d0 é uma direção factível e de descida em x
0
.
1.v Determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I0 = {2} ⇒ Ic0 = {1, 3, 4}, as linhas a serem analisadas são:
at1d0 = (−1,−1)t(−3, 3) = 0 ≤ 0
at3d0 = (−1, 0)t(−3, 3) = 3 > 0
at4d0 = (0,−1)t(−3, 3) = −3 ≤ 0
Portanto, o tamanho máximo do passo é:
α¯ =
b3 − at3x0
at3d0
=
0− (−1, 0)t(2, 1)
(−1, 0)t(−3, 3)
=
2
3
1.vi Realizar busca linear em (0, α¯] garantindo descenso suficiente..
Seja α ∈ (0, α¯ = 2
3
], e definimos φ(α) = f(x0 + αd0). Temos que:
φ(α) = f(x0 + αd0)
= f((2, 1)t + α(−3, 3)t)
= f(2− 3α, 1 + 3α)
= 18α2 − 18α + 9
182
Logo, o minimizador de φ(α) é α0 = − b2a = − −182(18) = 12 ∈ (0, α¯].
Daí vem que
x1 = x0 + α0d0
= (2, 1)t +
1
2
(−3, 3)t
= (
1
2
,
5
2
)t
2.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I1 = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {2}
r(x1) = |I1|
= 1
AI1 =
[
1 1
]
Como I1 6= ∅, vamos ao passo ii.
2.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x1) = AtI1λ
(3, 3)t =
[
1 1
]
λ
λ = 3
Como o sistema tem solução, vamos ao passo iii.
2.iii Verificar o sinal de λ
Como λ = 3 > 0, vamos ao passo vii.
2.vii Escolher uma direção factível e de descida dk em x
k
Seja d1 = (−12 ,−32)t. Temos que:
183
∇tf(x1)d1 = (3, 3)t(−1
2
,−3
2
)
= −12
2
= −6
< 0
Logo, d1 é de descida em x
1
. Para j ∈ I(x1) = {2}, temos também
que:
atj = a
t
2d = (1, 1)
t(−1
2
,−3
2
) = −4
2
= −2 ≤ 0
Logo, d1 é factível em x
1
(pela afirmação 9.3 da p. 67 do livro da
Ana).
Portanto, d1 = (−12 ,−32)t é uma direção factível e de descida em
x1.
2.viii Igual ao passo 5: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I1 = {2} ⇒ Ic1 = {1, 3, 4}, as linhas a serem analisadas são:
at1d1 = (−1,−1)t(−
1
2
,−3
2
) = 2 > 0
at3d1 = (−1, 0)t(−
1
2
,−3
2
) =
1
2
> 0
at4d1 = (0,−1)t(−
1
2
,−3
2
) =
3
2
> 0
O valor de cada uma das frações é:
184
b1 − at1x1
at1d1
=
−1− (−1,−1)t(1
2
, 5
2
)
2
=
2
2
= 1
b3 − at3x1
at3d1
=
0− (−1, 0)t(1
2
, 5
2
)
1
2
=
1
2
1
2
= 1
b4 − at4x1
at4d1
=
0− (0,−1)t(1
2
, 5
2
)
3
2
=
5
2
3
2
=
5
3
Portanto, o tamanho máximo do passo é igual à fração de valor
mínimo:
α¯ = 1
2.ix Realizar busca linear em (0, α¯] garantindo descenso suficiente..
Seja α ∈ (0, α¯ = 1], e definimos φ(α) = f(x1 + αd1). Temos que:
φ(α) = f(x1 + αd1)
= f((
1
2
,
5
2
)t + α(−1
2
,−3
2
)t)
= f(
1− α
2
,
5− 3α
2
)
=
5
2
α2 − 6α + 9
2
185
Como
φ′(α) = 5α− 6
< 0 para α ∈ (0, α¯]
, o minimizador de φ(α) é α0 = α¯ = 1 ∈ (0, α¯].
Daí vem que
x2 = x1 + α1d1
= (
1
2
,
5
2
)t + 1(−1
2
,−3
2
)t
= (0, 1)t
3.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I2 = {j ∈ {1, . . . ,m} | atjx2 = bj}
= {1, 3}
r(x2) = |I2|
= 2
AI2 =
[ −1 −1
−1 0
]
Como I1 6= ∅, vamos ao passo ii.
3.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x2) = AtI2λ
(2, 0)t =
[ −1 −1
−1 0
] [
λ1
λ2
]
(λ1, λ2)
t = (0,−2)t
Como o sistema tem solução, vamos ao passo iii.
186
3.iii Verificar o sinal de λ
Como λi ≤0 ∀i, x2 = (0, 1)t é ponto estacionário. Logo, o algo-
ritmo para.
10.4 Aplique um método de restrições ativas para resolver
minimizar x2 + xy + 2y2 − 6x− 2y − 12z
s.a. x+ y + z = 2
−x+ 2y ≤ 3
x, y, z ≥ 0
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = x2 + xy + 2y2 − 6x− 2y − 12z
s.a. x+ y + z ≤ 2
−x− y − z ≤ −2
−x+ 2y + 0z ≤ 3
−x+ 0y + 0z ≤ 0
0x− y + 0z ≤ 0
0x+ 0y − z ≤ 0
Nesse caso, temos que A =
1 1 1
−1 −1 −1
−1 2 0
−1 0 0
0 −1 0
0 0 −1
∈ R
6×2
e b =
2
−2
3
0
0
0
∈
R6.
Temos que o gradiente de f é dado por:
∇f(x, y) = (∂f
∂x
,
∂f
∂y
,
∂f
∂z
)t
= (2x+ y − 6, x+ 4y − 2,−12)t
187
Além disso, a hessiana de f é dada por:
∇2f(x, y) =
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂z
∂2f
∂x∂y
∂2f
∂y2
∂2f
∂z∂y
∂2f
∂z∂x
∂2f
∂z∂y
∂2f
∂z2
=
2 1 01 4 0
0 0 0
De acordo com o algoritmo 10.1 (método de restrições ativas) da página
77 do livro da Ana, as iterações (a partir de x0 = (0, 0, 2)t) são dadas
por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {1, 2, 4, 5}
r(x0) = |I0|
= 4
AI0 =
1 1 1
−1 −1 −1
−1 0 0
0 −1 0
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(−6,−2,−12)t =
1 −1 −1 01 −1 0 −1
1 −1 0 0
λ1
λ2
λ3
λ4
λ = (λ1, λ1 + 12,−6,−10)t, λ1 ∈ R
188
Em particular, λ = (−12, 0,−6,−10)t é solução do sistema. Como
o sistema tem solução, vamos ao passo ii.
1.iii Verificar o sinal de λ
Como para a solução λ = (−12, 0,−6,−10)t todas as componentes
são não positivas, temos que x0 = (0, 0, 2)t é ponto estacionário.
Logo, o algoritmo para.
1.11 Capítulo 11 - Minimização com restrições lineares
de igualdade e desigualdade
11.1 Considere o problema
minimizar
n∑
j=1
fj(xj)
s.a. etx =
n∑
j=1
xj = 1
x ≥ 0
com fj : R→ R, fj ∈ C1, j = 1, . . . , n e e = (1, . . . , 1)t. Prove que se x˜
é a solução do problema acima, então existe α ∈ R tal que f ′j(x˜j) = α
se x˜j > 0 e f
′
j(x˜j) ≥ α se x˜j = 0.
Temos que o problema em questão é equivalente a:
minimizar f(x) =
n∑
j=1
fj(xj)
s.a. Ax = b
Wx ≤ c
Nesse caso, temos que A =
[
1 . . . 1
] ∈ R1×n, b = 1 ∈ R, W =
−I ∈ Rn×n e c = (0, . . . , 0)t ∈ Rn.
Se x˜ é a solução do problema, definamos:
189
J (x˜) := {j ∈ {1, . . . , n} | wtjx˜ = cj}
= {i1, . . . , is(x˜)}
s(x˜) := |J (x˜)|
I(x˜) := {1} ∪ J (x˜)
r(x˜) := |I(x˜)|
Temos dois casos:
caso 1: s(x˜) = 0 (i.e., x˜j > 0 ∀j ∈ {1, . . . , n})
Pelas condições KKT para x˜ (válidas pois restrições lineares são con-
dições de qualificação), existe α ∈ R tal que:
∇f(x˜) = Atα
(f ′1(x1), . . . , f
′
n(xn))
t = (1, . . . , 1)tα
f ′j(x˜j) = α ∀j ∈ {1, . . . , n}
Como s(x˜) = 0, x˜j > 0 ∀j ∈ {1, . . . , n} e portanto f ′j(x˜j) = α para
todos x˜j > 0 . Como não existe i tal que x˜i = 0, então α satisfaz as
condições do enunciado.
caso 2: s(x˜) ≥ 1
Pelas condições KKT (teorema 11.1 da p. 82 do livro da Ana) para
x˜ (as condições são válidas pois restrições lineares são condições de
qualificação), existem α ∈ R e µ ∈ Rs(x˜) (com µk ≤ 0 para todo
k ∈ {1, . . . , s(x˜)}) tais que:
∇f(x˜) = Atα +W tJ (x˜)µ
(f ′1(x1), . . . , f
′
n(xn))
t = (1, . . . , 1)tα +W tJ (x˜)µ
Seja agora µ′ ∈ Rn tal que µ′i = µj ⇐⇒ wtix˜ = ci (onde µj é o
multiplicador correspondente à restrição wtjx˜ ≤ cj) e µ′i = 0 ⇐⇒
wtix˜ < ci .
190
Da definição de µ′ temos que µ′j(w
t
jx˜− cj) = 0 para todo j ∈ 1, . . . , n.
Logo, W tJ (x˜)µ = W
tµ′ = (−I)tµ′ = −Iµ′ = −µ′. Continuando a
inequação anterior, segue que:
(f ′1(x1), . . . , f
′
n(xn))
t = (1, . . . , 1)tα− µ′
(f ′1(x1), . . . , f
′
n(xn))
t = (α1 − µ′1, . . . , α1 − µ′n)t
f ′j(x˜j) = αj − µ′j ∀j ∈ {1, . . . , n}
Portanto (da definição de µ′), se wtjx˜ = cj (i.e., se x˜j = 0) teremos
µ′j ≤ 0⇒ −µ′j ≥ 0⇒ αj−µ′j ≥ α . Daí segue que f ′j(x˜j) = αj−µ′j ≥ α.
Ainda (também da definição de µ′), se wtjx˜ < cj (i.e., se x˜j > 0) teremos
µ′j = 0⇒ αj − µ′j = αj . Daí segue que f ′j(x˜j) = αj − µ′j = α.
Dos dois últimos parágrafos temos que α satisfaz as condições do enun-
ciado.
11.2 Considere o problema de minimização quadrática
minimizar f(x) = 1
2
xtHx+ ctx
s.a. Ax ≤ b
onde H ∈ Rn×n, c ∈ Rn, A ∈ Rm×n e b ∈ Rm
(a) Escreva as condições de otimalidade de segunda ordem
Pelo exercício 1.16)b), temos ∇f(x) = Hx + c e ∇2f(x) = H.
Seja x∗ um minimizador local do problema e definamos:
J (x∗) := {j ∈ {1, . . . , n} | atjx∗ = bj}
= {i1, . . . , is(x∗)}
s(x∗) := |J (x∗)|
I(x∗) := ∅ ∪ J (x∗)
r(x∗) := |I(x∗)|
B
191
Pelo teorema 11.2 (p. 82 do livro da Ana), as condições (necessá-
rias) de otimalidade de segunda ordem são:
(i) Existe µ ∈ Rs(x∗) (com µk ≤ 0 para todo k ∈ {1, 2, . . . , s(x∗)})
tal que:
∇f(x∗) = AtJ (x∗)µ
Hx∗ + c = AtJ (x∗)µ
(ii) yt∇2f(x)y = ytHy ≥ 0 para todo y ∈ Nu(AJ (x∗)). Em outras
palavras, H é semidefinida positiva em Nu(AJ (x∗)).
(b) Para H = I e c = 0, interprete esse problema geometricamente.
Nesse caso, o problema fica:
minimizar
1
2
xtx = 1
2
n∑
i=1
x2i
s.a. Ax ≤ b
Portanto, geometricamente, o problema consiste em encontrar o
ponto do poliedro {x | Ax ≤ b} que está mais próximo da ori-
gem (pois
n∑
i=1
x2i é o quadrado da distância euclidiana de x até a
origem).
1.12 Capítulo 12 - Minimização com restrições não-lineares
de igualdade
12.1 Considere o problema de encontrar o ponto da superfície f(x, y, z) = 0
mais próximo da superfície g(x, y, z) = 0. Formule esse problema como
um sistema não-linear. Invente exemplos!
parcialmente resolvido (faltaram os exemplos)
Consideremos f : R3 → Rm dada por f(x1, y1, z1) = (f1(x1, y1, z1), . . . , fm(x1, y1, z1))t,
e g : R3 → Rp dada por g(x2, y2, z2) = (g1(x2, y2, z2), . . . , gp(x2, y2, z2))t.
Definamos também f.g : R6 → Rm+p (a concatenação de f e g) dada
por
f.g(x1, y1, z1, x2, y2, z2) = (f1(x1, y1, z1), . . . , fm(x1, y1, z1), g1(x2, y2, z2), . . . , gp(x2, y2, z2))
t
192
Segue imediatamente das definições anteriores que f(x1, y1, z1) = 0 e
g(x2, y2, z2) = 0 se, e somente se, f.g(x1, y1, z1, x2, y2, z2) = 0 (para
qualquer (x1, y1, z1, x2, y2, z2)
t ∈ R6). Portanto, o conjunto viável do
problema pode ser expresso pela restrição f.g(x1, y1, z1, x2, y2, z2) = 0.
Como queremos encontrar o ponto de f(x1, y1, z1) = 0 que está mais
próximo de g(x2, y2, z2) = 0, então o objetivo é minimizar a distância
entre (x1, y1, z1) e (x2, y2, z2) (ou seja, minimizar ‖(x1, y1, z1)− (x2, y2, z2)‖2).
Como a função
1
2
x2 é crescente para x ≥ 0, então esse problema também
equivale a minimizar
1
2
‖(x1, y1, z1)− (x2, y2, z2)‖22.
Portanto, esse problema equivale ao problema de minimização
(P): minimizar h(x) = 1
2
‖(x1, y1, z1)− (x2, y2, z2)‖22
= 1
2
[(x1 − x2)2 + (y1 − y2)2 + (z1 − z2)2]
s.a. f.g(x1, y1, z1, x2, y2, z2) = 0
Consideremos agora a função lagrangeana L : R6+(m+p) → R associada
ao problema acima, dada por L(x, λ) = h(x) + λtf.g(x) (com x =
(x1, y1, z1, x2, y2, z2)
t ∈ R6 e λ ∈ Rm+p).
Seja x∗ um minimizador local de (P), e suponhamos que x∗ seja regular.
Logo (pelo teorema 12.2 da p. 89 do livro da Ana), existe λ∗ ∈ Rm+p
tal que ∇xL(x∗, λ∗) = ∇h(x∗) +
m+p∑
i=1
λ∗i∇f.gi(x∗) = 0, sendo que:
∇h(x) = ( ∂h
∂x1
,
∂h
∂y1
,
∂h
∂z1
,
∂h
∂x2
,
∂h
∂y2
,
∂h
∂z2
)t
= (x1 − x2, y1 − y2, z1 − z2, x2 − x1, y2 − y1, z2 − z1)t
e
∇f.gi(x) =
{ ∇fi(x) se 1 ≤ i ≤ m
∇gi−m(x) se m+ 1 ≤ i ≤ m+ p
Portanto, para achar os candidatos a minimizadores locais de (P), po-
demos resolver o sistema não linear dado pelas equações KKT:
193
∇xL(x, λ) = ∇h(x) +
m+p∑
i=1
λi∇f.gi(x) = 0
f.g(x) = 0
12.2 Sejam f : Rn → R, g : Rn → Rm, f , g ∈ C2(Rn). Sejax˜ ∈ Rn tal
que g(x˜) = 0, ∇f(x˜) = J tg(x˜)λ e ∇2f(x˜) > 0. Isso implica que x˜ é
minimizador local de f sujeita a g(x) = 0 ? Prove ou dê um contra-
exemplo.
parcialmente resolvido (faltou o contraexemplo)
Temos que:
∇f(x˜) = J tg(x˜)λ
∇f(x˜) = [ ∇g1(x˜) . . . ∇gm(x˜) ]
λ1..
.
λm
∇f(x˜) =
m∑
j=1
λj∇gj(x˜)
∇f(x˜)−
m∑
j=1
λj∇gj(x˜) = 0
Portanto, pelo teorema 12.2 (p.89 do livro da Ana), x˜ satisfaria as
condições necessárias de primeira ordem se fosse regular (mas isso não
é afirmado pelo enunciado do exercício). Logo, isso não implica que x˜
é minimizador local de f sujeita a g(x) = 0.
Mesmo supondo que x˜ seja regular, consideremos a função lagrange-
ana L(x, λ) = f(x) + λtg(x). Temos que ∇2xL(x, λ) = ∇2f(x) +
m∑
j=1
λj∇2gj(x) e o plano tangente T a S = {x ∈ Rn | h(x) = 0} é
tal que T = {y ∈ Rn | Jg(x˜)y = 0} (teorema 12.1 da p. 89 do li-
vro da Ana). Apesar de sabemos que ∇2f(x˜) > 0, isso não implica
que yt∇2xL(x˜, λ)y = yt∇2f(x˜)y + yt[
m∑
j=1
λj∇2gj(x˜)]y > 0 para todo
y ∈ T \ {0} (pois não sabemos se
m∑
j=1
λj∇2gj(x˜) ≥ 0 em T \ {0}). Por-
tanto, as condições suficientes de segunda ordem (teorema 12.4 da p.92
194
do livro da Ana) não são necessariamente satisfeitas. Logo, mesmo que
x˜ seja regular, isso não implica que x˜ é minimizador local de f sujeita
a g(x) = 0.
12.3 Desejamos minimizar f sujeita a hi(x) = 0, i = 1, . . . ,m. Suponha que
x˜ é uma solução desse problema e que x˜ é regular. Suponha também
que ∇f(x˜) = 0. Calcule os multiplicadores de Lagrange. Interprete
geometricamente.
Como x˜ é solução regular do problema, pelo teorema 12.2 (p. 89 do
livro da Ana) temos que existe λ˜ ∈ Rm tal que:
m∑
i=1
λ˜i∇hi(x˜) = ∇f(x˜)
= 0
Como x˜ é regular, pela definição 12.2 (p. 88 do livro da Ana) temos que
o conjunto {∇h1(x˜), . . . ,∇hm(x˜)} é linearmente independente. Pela
definição de independência linear e pela equação acima, segue que λ˜ =
(0, . . . , 0)t.
Geometricamente (pela regularidade de x˜), dado um arco factível dife-
renciável que passa por x˜, então o vetor tangente ao arco é ortogonal
a cada gradiente das restrições avaliadas em x˜ (∇hi(x˜)). Além disso,
como ∇f(x˜) = 0, não existem direções de descida para f (mesmo con-
siderando o problema irrestrito) em x˜.
12.4 Encontre todos os pontos estacionários da função
f(x) = −x21 − 4x22 − 16x23
sujeita à restrição c(x) = 0, onde c(x) é dada por:
O gradiente de f é dado por:
∇f(x) = ( ∂f
∂x1
,
∂f
∂x2
,
∂f
∂x3
)t
= (−2x1,−8x2,−32x3)t
195
Além disso, a hessiana de f é dada por:
∇2f(x) =
∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x3
∂2f
∂x1∂x2
∂2f
∂x22
∂2f
∂x2∂x3
∂2f
∂x3∂x1
∂2f
∂x3∂x2
∂2f
∂x23
=
−2 0 00 −8 0
0 0 −32
Como todos os autovalores de ∇2f(x) são negativos, a matriz é definida
negativa.
(a) c(x) = x1 − 1
O gradiente de c é dado por:
∇c(x) = ( ∂c
∂x1
,
∂c
∂x2
,
∂c
∂x3
)t
= (1, 0, 0)t
Além disso, a hessiana de c é dada por:
∇2c(x) =
∂2c
∂x21
∂2c
∂x1∂x2
∂2c
∂x1∂x3
∂2c
∂x1∂x2
∂2c
∂x22
∂2c
∂x2∂x3
∂2c
∂x3∂x1
∂2c
∂x3∂x2
∂2c
∂x23
=
0 0 00 0 0
0 0 0
Logo, os pontos estacionários são dados pelo sistema:{
∇f(x) = λ∇c(x)
c(x) = 0
⇒
{
(−2x1,−8x2,−32x3)t = λ(1, 0, 0)t
x1 − 1 = 0
⇒
196
x1 = 1
λ = −2x1 = −2
x2 =
0
−8 = 0
x3 =
0
−32 = 0
Portanto, o único ponto estacionário é x∗ = (1, 0, 0)t.
(b) c(x) = x1x2 − 1
O gradiente de c é dado por:
∇c(x) = ( ∂c
∂x1
,
∂c
∂x2
,
∂c
∂x3
)t
= (x2, x1, 0)
t
Além disso, a hessiana de c é dada por:
∇2c(x) =
∂2c
∂x21
∂2c
∂x1∂x2
∂2c
∂x1∂x3
∂2c
∂x1∂x2
∂2c
∂x22
∂2c
∂x2∂x3
∂2c
∂x3∂x1
∂2c
∂x3∂x2
∂2c
∂x23
=
0 1 01 0 0
0 0 0
Logo, os pontos estacionários são dados pelo sistema:{
∇f(x) = λ∇c(x)
c(x) = 0
⇒
{
(−2x1,−8x2,−32x3)t = λ(x2, x1, 0)t
x1x2 − 1 = 0
⇒
x3 =
0
−32 = 0
x2 =
1
x1
−2x1 = λx2 = λx1
λx1 = −8x2 = − 8x1
⇒
x3 =
0
−32 = 0
x2 =
1
x1
λ = −2x21
λ = − 8
x21
⇒
x3 = 0
x2 =
1
x1
λ = −2x21
λ = − 8
x21
−2x21 = − 8x21
⇒
197
x3 = 0
x2 =
1
x1
λ = −2x21
λ = − 8
x21
⇒ λ = −4
x41 = 4⇒ x1 = ±
√
2
Portanto, os pontos estacionários são x∗1 = (
√
2,
√
2
2
, 0)t e x∗2 =
(−√2,−
√
2
2
, 0)t.
(c) c(x) = x1x2x3 − 1
O gradiente de c é dado por:
∇c(x) = ( ∂c
∂x1
,
∂c
∂x2
,
∂c
∂x3
)t
= (x2x3, x1x3, x1x2)
t
Além disso, a hessiana de c é dada por:
∇2c(x) =
∂2c
∂x21
∂2c
∂x1∂x2
∂2c
∂x1∂x3
∂2c
∂x1∂x2
∂2c
∂x22
∂2c
∂x2∂x3
∂2c
∂x3∂x1
∂2c
∂x3∂x2
∂2c
∂x23
=
0 x3 x2x3 0 x1
x2 x1 0
Logo, os pontos estacionários são dados pelo sistema:{
∇f(x) = λ∇c(x)
c(x) = 0
⇒
{
(−2x1,−8x2,−32x3)t = λ(x2x3, x1x3, x1x2)t
x1x2x3 − 1 = 0
⇒
x1 =
1
x2x3
λx2x3 = −2x1 = − 2x2x3
λx3 = −8x2x1 = −8x22x3
λx2 = −32x3x1 = −32x2x23
⇒
x1 =
1
x2x3
λ = − 2
x22x
2
3
λ = −8x22
λ = −32x3
x1
= −32x23
⇒
198
x1 =
1
x2x3
λ = −8x22
−8x22 = −32x23
−8x22 = − 2x22x23
⇒
x1 =
1
x2x3
λ = −8x22
x2 = ±2x3
x42x
2
3 =
1
4
⇒
x1 =
1
x2x3
λ = −8x22
x2 = ±2x3
x23 =
1
4x42
= 1
16x43
⇒
x1 =
1
x2x3
⇒ sgn(x2) sgn(x3) 3
√
2
λ = −8x22 ⇒ −32 3
√
1
16
x2 = ±2x3 ⇒ ±2 3
√
1
4
x63 =
1
16
⇒ x3 = ± 3
√
1
4
Portanto, os pontos estacionários são:
x∗1 = (
3
√
2, 2
3
√
1
4
,
3
√
1
4
)t
x∗2 = (
3
√
2,−2 3
√
1
4
,− 3
√
1
4
)t
x∗3 = (− 3
√
2,−2 3
√
1
4
,
3
√
1
4
)t
x∗4 = (− 3
√
2, 2
3
√
1
4
,− 3
√
1
4
)t
12.5 Seja x˜ um ponto regular, minimizador de f sujeita a h(x) = 0, onde
f : Rn → R, h : Rn → Rm, f , h ∈ C2, com multiplicadores de
Lagrange associados λ ∈ Rm. Denotemos por H a matriz hessiana
da lagrangeana em (x, λ), H = ∇2f(x˜) + ∑mi=1 λ˜i∇2hi(x˜), e por A o
jacobiano de h em x˜, A = Jh(x˜). Seja P a matriz de projeção sobre
o núcleo de A. Prove que a matriz definida por B = P tHP + AtA é
semidefinida positiva.
Supondo m < n, temos que A = Jh(x˜) =
∇
th1(x˜)
.
.
.
∇thm(x˜)
∈ Rm×n é tal
que posto(A) = m, pois as linhas de A são linearmente independentes
(pois x˜ é regular).
Para d ∈ Rn, temos que:
199
dtAtAd = (Ad)tAd
= ‖Ad‖22
≥ 0
Logo, AtA é semidefinida positiva.
Pelo teorema 12.1 (p.89 do livro da Ana), como x˜ é um ponto regular
de S = {x ∈ Rn | h(x) = 0}, então o plano tangente T a S verifica
T = {y ∈ Rn | Jh(x˜)y = Ay = 0} = Nu(A)
Como x˜ é um ponto regular, minimizador de f sujeita a h(x) = 0, pelas
condições de segunda ordem (teorema 12.3 da p.90 do livro da Ana)
temos que ytHy ≥ 0 para todo y ∈ T = Nu(A) .
Para d ∈ Rn, vale:
dt(P tHP )d = dt(P )tHPd
= (Pd)tH(Pd)
≥ 0
(pois Pd ∈ T = Nu(A), já que P é a matriz de projeção sobre o núcleo de A)
Logo, P tHP é semidefinida positiva.
Portanto, para d ∈ Rn, temos:
dtBd = dt(P tHP + AtA)d
= dt(P tHP )d︸ ︷︷ ︸
≥0
+ dt(AtA)d︸ ︷︷ ︸
≥0
≥ 0
Logo, B é semidefinida positiva (já que é soma de matrizes semidefini-
das positivas).
200
1.13 Capítulo 13 - Minimização com restrições não-lineares
de igualdade e desigualdade
13.1 Em R2 considere as seguintes restrições:
x1 ≥ 0
x2 ≥ 0
x2 − (x1 − 1)2 ≤ 0
Prove que (1, 0)t é factível mas não é regular.
Tais restrições equivalem a :
g1(x) = −x1 ≤ 0
g2(x) = −x2 ≤ 0
g3(x) = x2 − (x1 − 1)2 ≤ 0
Os gradientes de cada função são:
∇g1(x) = (−1, 0)t
∇g2(x) = (0,−1)t
∇g3(x) = (−2x1 + 2, 1)t
Temos que (1, 0)t é factível apenas se satisfizer osistema de inequações
g1(1, 0) ≤ 0
g2(1, 0) ≤ 0
g3(1, 0) ≤ 0
⇒
−1 ≤ 0
−0 = 0 ≤ 0
0− (1− 1)2 = 0 ≤ 0
Logo, (1, 0)t é factível. Seja K(1, 0) = {j ∈ {1, 2, 3} | gj(1, 0) = 0} =
{2, 3}. Pela definição 13.1 (p.96 do livro da Ana), (1, 0)t será regular
apenas se o conjunto {∇gj(1, 0) | j ∈ K(1, 0)} = {∇g2(1, 0),∇g3(1, 0)} =
{(0,−1)t, (0, 1)t} for linearmente independente.
201
Suponhamos α1, α2 ∈ R tal que α1(0,−1)t + α2(0, 1)t = (0, 0)t. Segue
que:
α1(0,−1)t + α2(0, 1)t = (0, 0)t
(0,−α1 + α2) = (0, 0)t
α1 = α2
Portanto, como não temos necessariamente que α1 = α2 = 0, segue
que {(0,−1)t, (0, 1)t} não é linearmente indepedente. Logo, (1, 0)t não
é regular.
13.2 Considere o problema
minimizar (x+ 1)2 + (y − 1)2
s.a. 2y − 1 = 0
(1− x)(4− x2 − y2) ≤ 0
100− 2x2 − y2 ≥ 0
Resolva o problema graficamente e encontre os valores exatos dos mul-
tiplicadores de Lagrange usando as condições Kuhn-Tucker.
Tal problema é equivalente a
minimizar f(x, y) = (x+ 1)2 + (y − 1)2 = ‖(x, y)− (−1, 1)‖22
s.a. h1(x, y) = 2y − 1 = 0
g1(x, y) = (1− x)(4− x2 − y2) ≤ 0
g2(x, y) = 2x
2 + y2 − 100 ≤ 0
Os gradientes de cada função são dados por:
∇f(x, y) = (2x+ 2, 2y − 2)t
∇h1(x, y) = (0, 2)t
∇g1(x, y) = (x(3x− 2) + y2 − 4, 2xy − 2y)t
∇g2(x, y) = (4x, 2y)t
202
O conjunto viável é dado pela figura a seguir:
Figura 12: Conjunto viável gerado pelo WolframAlpha .
A superfície h1(x, y) = 0 é definida pela reta y =
1
2
.
A região g2(x, y) ≤ 0 é tal que:
2x2 + y2 − 100 ≤ 0
2x2 + y2 ≤ 100
x2
50
+
y2
100
≤ 1
y2
102
+
x2
(5
√
2)2
≤ 1
Portanto, g2(x, y) ≤ 0 é o interior da elipse de centro (0, 0)t, eixo maior
igual a 2a = 2(10) = 20 paralelo ao eixo y, e eixo menor 2b = 2(5
√
2) =
10
√
2 paralelo ao eixo x.
Seja (x∗, y∗)t a solução do problema. Como h1(x∗, y∗) = 0, temos
y∗ = 1
2
. Como a função objetivo f(x, y) = ‖(x, y)t − (−1, 1)t‖22 é o
quadrado da distância ao ponto (−1, 1)t, então (x∗, y∗) é o ponto viável
da forma (x, 1
2
) que está mais próximo de (−1, 1)t.
Analisando a restrição dada por g2(x, y) ≤ 0 nos pontos (x, 12), temos:
203
2x2 + y2 − 100 ≤ 0
2x2 +
1
4
− 100 ≤ 0
x2 ≤ 399
8
−7, 06 ≈ −
√
798
4
≤ x ≤
√
798
4
≈ 7, 06
Analisando a restrição dada por g1(x, y) ≤ 0 nos pontos (x, 12), temos:
(1− x)(4− x2 − y2) ≤ 0
(1− x)(4− x2 − 1
4
) ≤ 0
(1− x)(15
4
− x2) ≤ 0
Temos dois casos a analisar:
caso 1: 1− x ≤ 0⇒ x ≥ 1
Para essa região, temos que o ponto viável mais próximo de (−1, 1)t será
p1 = (1,
1
2
)t (pois qualquer outro ponto viável terá x > 1, e portanto
será mais distante de (−1, 1)t). Temos que a distância de p1 a (−1, 1)t
é
√
(−1− 1)2 + (1− 1
2
)2 = 17
2
≈ 2, 06.
caso 2: 1− x > 0⇒ x < 1
Para essa região, devido à restrição g1(x, y) ≤ 0 ⇐⇒ (1−x)(154 −x2) ≤
0, temos que os pontos viáveis são tais que:
15
4
− x2 ≤ 0
x2 ≥ 15
4
x ≤ −
√
15
2
≈ −1, 93 (pois x < 1)
204
Logo, nesse caso temos que o ponto viável mais próximo de (−1, 1)t
será p2 = (−
√
15
2
, 1
2
)t (pois qualquer outro ponto viável terá x < −
√
15
2
,
e portanto será mais distante de (−1, 1)t). Temos que a distância de
p2 a (−1, 1)t é
√
(−1 +
√
15
2
)2 + (1− 1
2
)2 =
√
5−√15 ≈ 1, 06.
Portanto, dos casos 1 e 2 temos que (x∗, y∗)t = p2 = (−
√
15
2
, 1
2
)t (pois
p2 tem menor valor da função objetivo que p1).
Calculando os valores de cada função de restrição em (x∗, y∗)t, obtemos:
h1(x
∗, y∗) = 0
g1(x
∗, y∗) = 0
g2(x
∗, y∗) = −369
4
< 0
Seja K(x∗, y∗) = {j ∈ {1, 2} | gj(x∗, y∗) = 0} = {1}. Pelas condições
necessárias de primeira ordem (teorema 13.1 da p.97 do livro da Ana),
temos que existem λ ∈ R e µ ∈ R+ tais que:
∇f(x∗, y∗) + λ∇h1(x∗, y∗) + µ∇g1(x∗, y∗) = 0
(2−
√
15,−1)t + λ(0, 2)t + µ(15
2
+
√
15,−1−
√
15
2
)t = 0
{
2−√15 + µ(15
2
+
√
15) = 0
−1 + 2λ+ µ(−1−
√
15
2
) = 0
⇒
{
µ = 38
11
√
15
− 8
11
≈ 0.16 ≥ 0
λ = 1− 1√
15
⇒{
µ = 2(19
√
15−60)
165
λ = 15−
√
15
15
13.3 Considere o problema
maximizar x32
s.a. (x1 − x2)3 ≥ 0
(x1 + x2 − 2)3 ≤ 0
205
Resolva e analise as condições de otimalidade.
Tal problema é equivalente a
(P): minimizar −x32 = (−x2)3
s.a. −(x1 − x2)3 = (−[x1 − x2])3 ≤ 0
(x1 + x2 − 2)3 ≤ 0
Além disso, como f(x) = x3 não altera o sinal de x e é uma função não
decrescente, então o problema também é equivalente a:
(Q): minimizar f(x1, x2) = −x2
s.a. g1(x, y) = −x1 + x2 ≤ 0
g2(x, y) = x1 + x2 ≤ 2
Nesse caso, temos que A =
[ −1 1
1 1
]
∈ R2×2 e b =
[
0
2
]
∈ R2.
O conjunto viável é dado pela figura a seguir:
Figura 13: Conjunto viável gerado pelo WolframAlpha .
Logo, para minimizar f(x1, x2) = −x2, basta escolher o maior valor
viável de x2, que é x
∗
2 = 1. Tal valor apenas corresponde a um único
valor viável de x1, que é x
∗
1 = 1. Logo, x
∗ = (1, 1)t é a solução do
problema.
206
Temos que o gradiente de f é dado por:
∇f(x1, x2) = ( ∂f
∂x1
,
∂f
∂x2
)t
= (0,−1)t
Seja I = {j ∈ {1, 2} | atjx∗ = bj} = {1, 2}. Temos então que AI =
A =
[ −1 1
1 1
]
. Pelas condições de otimalidade de primeira ordem
(teorema 9.1 da p.69 do livro da Ana), existe λ ∈ R2 tal que:
∇f(x∗) = AtIλ
(0,−1)t =
[ −1 1
1 1
]
(λ1, λ2)
t
(0,−1)t = (−λ1 + λ2, λ1 + λ2)t
(λ1, λ2)
t = (−1
2
,−1
2
)
Logo, x∗ satisfaz a condição necessária de primeira ordem.
Ainda, como a hessiana de f é tal que:
∇2f(x) =
[
∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x2
∂2f
∂x22
]
=
[
0 0
0 0
]
Temos que, para todo y ∈ Nu(AI), temos yt∇2f(x∗)y = 0 ≥ 0, mas
não temos yt∇2f(x∗)y > 0. Portanto, x∗ satisfaz a condição necessária
de segunda ordem (teorema 9.2 da p. 73 do livro da Ana), mas não
satisfaz a condição suficiente de segunda ordem (teorema 9.3 da p. 73
do livro da Ana)
207
13.4 Considere o problema
minimizar f(x)
s.a. u(x) ≤ 0
v(x) ≤ 0
Suponha que x˜ é uma solução regular do problema acima. Defina pro-
blemas onde isso acontece e:
não resolvido
(a) u(x˜) = v(x˜) = 0
(b) u(x˜) < 0, v(x˜) = 0
(c) u(x˜) < 0, v(x˜) < 0
(d) u(x˜) = v(x˜) = 0 e um dos multiplicadores é zero.
13.5 Encontre todas as soluções globais do problema
maximizar x1
s.a. x2 − sen(x1) = 0
x22 − 1 = 0
−10 ≤ x1 ≤ 10
Tal problema é equivalente a
minimizar f(x1, x2) = −x1
s.a. h1(x1, x2) = x2 − sen(x1) = 0
h2(x1, x2) = x
2
2 − 1 = 0
g1(x1, x2) = x1 − 10 ≤ 0
g2(x1, x2) = −x1 − 10 ≤ 0
Seja (x1, x2) um ponto viável. Pela restrição h2(x1, x2) = 0, temos
x2 = ±1.
208
Para x2 = 1, como h1(x1, x2) = 0 ⇐⇒ sen(x1) = x2 = 1, segue
que x1 =
pi
2
+ 2kpi (para k ∈ Z). Para satisfazer g1(x1, x2) = 0 e
g2(x1, x2) = 0, é necessário que −10 ≤ pi2 + 2kpi ≤ 10, o que ocorre
apenas para k ∈ {−1, 0, 1}. Portanto, para x2 = 1, o ponto viável que
minimiza f é (x1, x2)
t = (pi
2
+ 2pi, 1)t = (5pi
2
, 1)t.
Para x2 = −1, como h1(x1, x2) = 0 ⇐⇒ sen(x1) = x2 = −1, segue
que x1 = −pi2 + 2kpi (para k ∈ Z). Para satisfazer g1(x1, x2) = 0 e
g2(x1, x2) = 0, é necessário que −10 ≤ −pi2 + 2kpi ≤ 10, o que ocorre
apenas para k ∈ {−1, 0, 1}. Portanto, para x2 = −1, o ponto viável
que minimiza f é (x1, x2)
t = (−pi
2
+ 2pi, 1)t = (3pi
2
,−1)t.
Como f(5pi
2
, 1) = −5pi
2
< −3pi
2
= f(3pi
2
,−1), segue que (x∗1, x∗2)t = (5pi2 , 1)t
é a solução global do problema.
13.6 Considere o problema
minimizar x1
s.a. x2 ≥ 0
x2 ≤ x31
Qual é a solução? Por que não se verificam as condições Kuhn-Tucker?
Tal problema é equivalente a
minimizar f(x1, x2) = x1
s.a. g1(x1, x2) = −x2 ≤ 0
g2(x1, x2) = x2 − x31 ≤ 0
O conjunto viável é dado pela figura a seguir:
209
Figura 14: Conjunto viável gerado pelo WolframAlpha .
Seja (x1, x2) um pontoviável. Pela restrição g1(x1, x2) ≤ 0, temos
x2 ≥ 0. Pela restrição g2(x1, x2) ≤ 0, temos x31 ≥ x2. Como x2 ≥ 0,
temos x31 ≥ 0 ⇒ x1 ≥ 0. Como o objetivo é minimizar x1, segue
imediatamente que a solução do problema é x∗ = (x∗1, x
∗
2)
t = (0, 0)t.
Temos que os gradientes das funções são dados por:
∇f(x1, x2) = (1, 0)t
∇g1(x1, x2) = (0,−1)t
∇g2(x1, x2) = (−3x21, 1)t
Seja I = {j ∈ {1, 2} | gj(x∗) = 0} = {1, 2}. Pelas condições de
otimalidade de primeira ordem (teorema 13.1 da p.97 do livro da Ana),
a condição KKT de primeira ordem é que existe µ ∈ R2+ tal que:
∇f(x∗) +
∑
j∈I
µj∇gj(x∗) = 0
(1, 0)t + µ1(0,−1)t + µ2(0, 1)t = 0
(1,−µ1 + µ2)t = 0 (não existe solução)
Logo, a condição KKT de primeira ordem não é satisfeita. Isso ocorre
pois o conjunto de gradientes das restrições ativas em x∗, dado por
210
{∇g1(x∗),∇g2(x∗)} = {(0,−1), (0, 1)}, não é linearmente independente
(pois (0,−1) = −1(0, 1)). Logo, x∗ não é regular, e portanto as condi-
ções KKT não precisam necessariamente ser válidas.
13.7 Resolva os problemas abaixo usando as condições Kuhn-Tucker:
(a)
minimizar
∑n
i=1
1
xi
s.a.
∑n
i=1 x
2
i = n
xi ≥ 0, i = 1, . . . , n
Tal problema é equivalente a
minimizar f(x) =
∑n
i=1
1
xi
s.a. h(x) = −n+∑ni=1 x2i = 0
g1(x) = −x1 ≤ 0
.
.
.
gn(x) = −xn ≤ 0
Temos que os gradientes das funções são dados por:
∇f(x) = (− 1
x21
, . . . ,− 1
x2n
)t
∇h(x) = (2x1, . . . , 2xn)t
∇gi(x) = (0, . . . , 0, −1︸︷︷︸
posição i
, 0, . . . , 0)t, i = 1, . . . , n
Suponhamos que x∗ seja uma solução regular do problema. Pelas
condições KKT gerais (teorema 2.4.1 da p.22 do livro do Martí-
nez), existem λ∗ ∈ R e µ∗ ∈ Rn+ tais que:
∇f(x∗) + λ∗∇h(x∗) +
n∑
i=1
µ∗i∇gi(x∗) = 0
h(x∗) = 0
gi(x
∗) ≤ 0, i = 1, . . . , n
µ∗i gi(x
∗) = 0, i = 1, . . . , n
⇒
211
(− 1
(x∗1)2
, . . . ,− 1
(x∗n)2
)t + 2λ∗(x∗1, . . . , x
∗
n)
t − (µ∗1, . . . , µ∗n) = 0∑n
i=1(x
∗
i )
2 = n
x∗i ≥ 0, i = 1, . . . , n
µ∗i (−x∗i ) = 0, i = 1, . . . , n
⇒
(− 1
(x∗1)2
+ 2λ∗x∗1 − µ∗1, . . . ,− 1(x∗n)2 + 2λ
∗x∗n − µ∗n)t = 0∑n
i=1(x
∗
i )
2 = n
x∗i ≥ 0, i = 1, . . . , n
µ∗ix
∗
i = 0, i = 1, . . . , n
⇒
− 1
(x∗i )2
+ 2λ∗x∗i − µ∗i = 0, i = 1, . . . , n∑n
i=1(x
∗
i )
2 = n
x∗i ≥ 0, i = 1, . . . , n
µ∗ix
∗
i = 0, i = 1, . . . , n
se µ∗=0
====⇒
x∗i =
3
√
1
2λ∗ , i = 1, . . . , n∑n
i=1(x
∗
i )
2 = n
x∗i ≥ 0, i = 1, . . . , n
⇒
x∗i =
3
√
1
2λ∗ , i = 1, . . . , n
n( 3
√
1
2λ∗ )
2 = n
x∗i ≥ 0, i = 1, . . . , n
⇒
x∗i =
3
√
1
2λ∗ = 1, i = 1, . . . , n
λ∗ = 1
2
x∗i ≥ 0, i = 1, . . . , n
Logo, como x∗ = (1, . . . , 1)t é regular (pois o conjunto das restri-
ções ativas em x∗ é {∇h(x∗)} = {(2, . . . , 2)t}, que é linearmente
independente), temos que x∗ satisfaz a condição de primeira or-
dem.
Além disso, a hessiana do lagrangeano em relação a x é tal que:
∇2xL(x∗, λ∗, µ∗) = ∇2f(x∗) + λ∗∇2h(x∗)
= diag(
2
(x∗1)3
, . . . ,
2
(x∗n)3
) +
1
2
diag(2, . . . , 2)
= diag(2, . . . , 2) + diag(1, . . . , 1)
= diag(3, . . . , 3)
> 0
Portanto, como ∇2xL(x∗, λ∗, µ∗) > 0, x∗ satisfaz as condições su-
ficiente de segunda ordem (e portanto é um minimizador local de
212
f).
(b)
maximizar
∏n
i=1 xi
s.a.
∑n
i=1 x
2
i = n
Tal problema é equivalente a
minimizar f(x) = −∏ni=1 xi
s.a. h(x) = −n+∑ni=1 x2i = 0
Temos que os gradientes das funções são dados por:
∇f(x) = (−x2 . . . xn, . . . ,
∂f
∂xi
=︷ ︸︸ ︷
−x1 . . . xi−1xi+1 . . . xn, . . . ,−x1 . . . xn−1)t
∇h(x) = (2x1, . . . , 2xn)t
Suponhamos que x∗ seja uma solução regular do problema. Pelas
condições KKT gerais (teorema 2.4.1 da p.22 do livro do Martí-
nez), existe λ∗ ∈ R tal que:{
∇f(x∗) + λ∗∇h(x∗) = 0
h(x∗) = 0
⇒{
(−x∗2 . . . x∗n, . . . ,−x∗1 . . . x∗i−1x∗i+1 . . . x∗n, . . . ,−x∗1 . . . x∗n−1)t + 2λ∗(x∗1, . . . , x∗n)t = 0∑n
i=1(x
∗
i )
2 = n
⇒{
−x∗1 . . . x∗i−1x∗i+1 . . . x∗n = −2λ∗x∗i , i = 1, . . . , n∑n
i=1(x
∗
i )
2 = n
⇒{
−x∗1 . . . x∗n = −2λ∗(x∗i )2, i = 1, . . . , n∑n
i=1(x
∗
i )
2 = n
⇒
−x∗1 . . . x∗n = −2λ∗(x∗i )2, i = 1, . . . , n
(x∗1)
2 = . . . = (x∗n)
2∑n
i=1(x
∗
i )
2 = n
⇒
213
∑n
i=1(x
∗
i )
2 = n⇒ (x∗i )2 = 1⇒ x∗i = ±1, i = 1, . . . , n
(x∗1)
2 = . . . = (x∗n)
2
−x∗1 . . . x∗n = −2λ∗(x∗i )2 ⇒ λ∗ = x
∗
1...x
∗
n
2
, i = 1, . . . , n
Como queremos minimizar f(x) = −∏ni=1 xi e x∗i = ±1 ∀i, en-
tão qualquer x∗ ∈ {+1,−1}n tal que ∏ni=1 x∗i = 1 é candidato a
mínimo local.
13.8 Considere o seguinte problema
minimizar −x1 + x2
s.a. x21 + x
2
2 − 2x1 = 0
(x1, x2) ∈ X
onde X é o conjunto formado pelas combinações convexas dos pontos
(−1, 0), (0, 1), (1, 0) e (0,−1). Encontre a solução ótima graficamente e
verifique se as condições Kuhn-Tucker são cumpridas na solução obtida.
Seja (x1, x2)
t ∈ X. Logo, existem x3, x4, x5, x6 ∈ R+ (com x3 + x4 +
x5 + x6 = 1) tais que:
(x1, x2)
t = x3(−1, 0)t + x4(0, 1)t + x5(1, 0)t + x6(0,−1)t
= (−x3 + x5, x4 − x6)t
Logo,
X = {(−x3 + x5, x4 − x6)t | x3 + x4 + x5 + x6 = 1; (x3, x4, x5, x6)t ∈ R4+}
= {(x1, x2)t ∈ R2 | x1 + x2 ≤ 1,−x1 − x2 ≤ 1,−x1 + x2 ≤ 1, x1 − x2 ≤ 1}
Portanto, o problema pode ser reformulado como:
214
(P) minimizar f(x) = −x1 + x2
s.a. h1(x) = x
2
1 + x
2
2 − 2x1 = (x1 − 1)2 + (x2 − 0)2 − 12 = 0
g1(x) = x1 + x2 − 1 ≤ 0
g2(x) = −x1 − x2 − 1 ≤ 0
g3(x) = −x1 + x2 − 1 ≤ 0
g4(x) = x1 − x2 − 1 ≤ 0
O conjunto viável é dado pela figura a seguir:
Figura 15: Conjunto viável gerado pelo WolframAlpha .
Graficamente, temos então que o ponto que minimiza f(x) = −x1 + x2
é x∗ = (2−
√
2
2
,−
√
2
2
)t. Seja I = {j ∈ {1, 2, 3, 4} | gj(x∗) = 0} = {4}.
Temos que os gradientes das funções são dados por:
∇f(x) = (−1, 1)t
∇h1(x) = (2x1 − 2, 2x2)t
∇g1(x) = (1, 1)t
∇g2(x) = (−1,−1)t
∇g3(x) = (−1, 1)t
∇g4(x) = (1,−1)t
215
Consideremos o conjunto dos gradientes das restrições ativas em x∗,
dado por {∇h1(x∗),∇g4(x∗)} = {(−
√
2,−√2)t, (1,−1)t}. Suponha-
mos que existam a, b ∈ R tais que a∇h1(x∗) + b∇g4(x∗) = 0. Temos
que:
a∇h1(x∗) + b∇g4(x∗) = 0
a(−
√
2,−
√
2)t + b(1,−1)t = 0
(−a
√
2 + b,−a
√
2− b)t = 0
a = b = 0
Logo, como {∇h1(x∗),∇g4(x∗)} é um conjunto linearmente indepen-
dente, segue que x∗ é regular. Portanto, pelos teoremas 13.1 (p. 97 do
livro da Ana) e 13.2 (p. 99 do livro da Ana), x∗ satisfaz as condições
KKT necessárias de primeira e segunda ordem.
Logo, existem λ∗ ∈ R e µ∗ ∈ R+ tais que:
∇f(x∗) + λ∗∇h1(x∗) + µ∗∇g4(x∗) = 0
(−1, 1)t + λ∗(−
√
2,−
√
2)t + µ∗(1,−1)t = 0
(−1− λ∗
√
2 + µ∗, 1− λ∗
√
2− µ∗)t = 0
(λ∗, µ∗)t = (0, 1)t
Além disso, a hessiana do lagrangeano em relação a x é tal que:
∇2xL(x∗, λ∗, µ∗) = ∇2f(x∗) + λ∗∇2h1(x∗) + µ∗∇2g4(x∗)
=
[
0 0
0 0
]
+ 0∇2h1(x∗) + 1
[
0 0
0 0
]
=
[
0 0
0 0
]
≥ 0
216
Seguindo a definição do teorema 13.3 (p. 100 do livro da Ana), seja
T ′ = {y | ∇th1(x∗)y = 0 e ∇tg4(x∗)y = 0}. Se y = (y1, y2) ∈ T ′, temos
que:{
∇th1(x∗)y = 0
∇tg4(x∗)y = 0
⇒
{
(−√2,−√2)t(y1, y2) = 0
(1,−1)t(y1, y2) = 0
⇒
{
−y1
√
2− y2
√
2 = 0
y1 − y2 = 0
⇒{
y1 = 0
y2 = 0
Portanto, como não vale que ∇2xL(x∗, λ∗, µ∗) é definida positiva em
T ′ = {(0, 0)t}, x∗ não satisfaz as condições suficientes de segunda ordem
(embora seja a solução ótima do problema).
13.9 Os seguintes desenhos mostram duas restrições g(x) ≤ 0, h(x) ≤ 0 e o
gradiente de uma função f num ponto factível x. Em cada caso, diga
se x é um maximizador, minimizador ou �nada�.
Considerando o teorema 13.1 (p. 97 do livro da Ana) e a figura 13.3
(p. 99 do livro da Ana, reproduzida a seguir)
Figura 16: Figura 13.3 dolivro da Ana.
217
, temos que x será minimizador local de f se∇f(x) for uma combinação
linear não positiva dos gradientes das restrições ativas em x (isto é, se
∇f(x) = W tK(−µ∗) com µ∗i ≥ 0 , sendo que as colunas de W tK são
os gradientes das restrições ativas em x ). Graficamente, isso significa
que ∇f(x) precisa estar �entre� −∇g(x) e −∇h(x) (supondo que g e h
sejam as funções das restrições ativas em x).
Analogamente, temos que x será maximizador local de f se ∇f(x) for
uma combinação linear não negativa dos gradientes das restrições ativas
em x (isto é, se ∇f(x) = W tKµ∗ com µ∗i ≥ 0 , sendo que as colunas de
W tK são os gradientes das restrições ativas em x ). Graficamente, isso
significa que ∇f(x) precisa estar �entre� ∇g(x) e ∇h(x) (supondo que
g e h sejam as funções das restrições ativas em x).
Sabemos também ∇g(x) é perpendicular à curva de nível g(x) = 0, e
que ∇g(x) aponta para a região oposta à região viável (indicada pela
�franja� na curva de nível g(x) = 0). Usando isso, temos:
(a)
Como ∇f(x) não está em nenhum dois casos descritos anterior-
mente, é classificado como �nada�.
(b)
Nesse caso, temos que ∇f(x) está �entre� −∇g(x) e −∇h(x) .
Logo, x é minimizador local de f .
(c)
Como ∇f(x) não está em nenhum dois casos descritos anterior-
mente, é classificado como �nada�.
218
(d)
não resolvido, pois uma das restrições não possui a �franja� que
mostra qual é a região viável.
(e)
Como ∇f(x) não está em nenhum dois casos descritos anterior-
mente, é classificado como �nada�.
(f)
Como ∇f(x) não está em nenhum dois casos descritos anterior-
mente, é classificado como �nada�.
(g)
Nesse caso, temos que ∇f(x) está �entre� ∇g(x) e ∇h(x) . Logo,
x é maximizador local de f .
(h)
Nesse caso, temos que ∇f(x) está �entre� −∇g(x) e −∇h(x) .
219
Logo, x é minimizador local de f .
13.10 Sejam f : Rn → R , g : Rn → Rm , r : Rp → R , h : Rp → Rq .
Considere os problemas:
(P) minimizar f(x) (Q) minimizar r(x)
s.a. g(x) ≤ 0 s.a. h(x) = 0
Mostre como transformar (P) em (Q) e vice-versa.
parcialmente resolvido (faltou transformar (P) em (Q), mas talvez
isso não seja possível)
⇐ Consideremos o problema (Q). Como h(x) = 0 ⇐⇒ h(x) ≥
0 e h(x) ≤ 0 ⇐⇒ −h(x) ≤ 0 e h(x) ≤ 0, segue imediatamente que
(Q) é equivalente a :
(Q') minimizar r(x)
s.a. −h(x) ≤ 0
h(x) ≤ 0
Definindo g := −h.h (i.e., g é a concatenação de −h(x) e h(x), de
acordo com a definição feita na resolução do exercício 12.1), temos que
(Q) e (Q') também são equivalentes a:
(Q�) minimizar r(x)
s.a. g(x) ≤ 0
Como (Q�) está no mesmo formato de (P), então transformamos (Q)
em (P).
⇒ Consideremos o problema (P). Como g : Rn → Rm, definamos as
variáveis (de folga) não negativas s1, . . . , sm. Temos então que (P) é
equivalente a:
220
(P') minimizar f(x)
s.a. g1(x) + s1 = 0
.
.
.
gm(x) + sm = 0
s1 ≥ 0
.
.
.
sm ≥ 0
Argumentamos que não é possível transformar (P) (ou (P')) para o
formato de (Q), pois (Q) é a forma geral do problema de programação
não-linear, enquanto (P) é um caso particular.
13.11 Encontre a solução (x˜, y˜) do problema abaixo em função do parâmetro
a ≥ 0:
minimizar −x+ y
s.a. y ≥ x2
0 ≤ x ≤ a
0 ≤ y ≤ 1
O conjunto viável (para 0 ≤ a < 1) é dado pela figura a seguir:
Figura 17: Conjunto viável gerado pelo WolframAlpha .
221
O conjunto viável (para a ≥ 1) é dado pela figura a seguir:
Figura 18: Conjunto viável gerado pelo WolframAlpha .
Seja (x, y)t um ponto viável. Analisemos os seguintes casos:
Caso 1: 0 ≤ a ≤ 1
Como 0 ≤ a ≤ 1 e 0 ≤ x ≤ a, temos 0 ≤ x2 ≤ 1. Logo, y = x2 é
viável. Para qualquer escolha de x ∈ [0, a], como o objetivo é minimizar
f(x, y) = −x+y, segue que a melhor escolha de y será y = x2. Portanto,
a função objetivo é da forma f(x) = −x+ x2. A derivada de f é então
f ′(x) = 2x− 1. Analisemos dois subcasos:
Caso 1.1: 0 ≤ a < 1
2
Temos que 0 ≤ x ≤ a < 1
2
. Como f ′(x) = 2x − 1 < 0 para x ∈ [0, 1
2
],
segue que o mínimo de f em [0, a] ocorre em x = a. Portanto, a solução
do problema é (x˜, y˜) = (a, a2).
Caso 1.2:
1
2
≤ a ≤ 1
Temos que 0 ≤ x ≤ a ≤ 1. Como f ′(1
2
) = 0 e f ′(1
2
) = 2 > 0, segue
que o mínimo de f em [0, a] ocorre em x = 1
2
. Portanto, a solução do
problema é (x˜, y˜) = (1
2
, (1
2
)2) = (1
2
, 1
4
).
Caso 2: a > 1.
Nesse caso, temos que os pontos x tais que x > 1 não sáo viáveis, pois
x2 > 1 e portanto y > 1 (pois y ≥ x2 > 1) . Logo, os únicos pontos x
que correspondem a y viáveis são os tais que x ∈ [0, 1].
Assim como no caso 1, para qualquer escolha de x ∈ [0, 1], como o
objetivo é minimizar f(x, y) = −x + y, segue que a melhor escolha de
y será y = x2. Portanto, a função objetivo é da forma f(x) = −x+ x2.
222
Como f ′(1
2
) = 0 e f ′(1
2
) = 2 > 0, segue que o mínimo de f em [0, 1]
ocorre em x = 1
2
. Portanto, a solução do problema é (x˜, y˜) = (1
2
, (1
2
)2) =
(1
2
, 1
4
).
Em suma, temos que:
(x˜, y˜) =
{
(a, a2) se 0 ≤ a < 1
2
(1
2
, 1
4
) se 1
2
≤ a
13.12 Considere o conjunto S = {(x, y) ∈ R2|y ≥ sen(x), y ≤ x, x ≤ pi}.
Exiba uma função f tal que o minimizador dela no conjunto S não
satisfaça as condições Kuhn-Tucker. Justifique.
Temos que o problema em questão pode ser modelado como:
minimizar f(x, y)
s.a. g1(x, y) = sen(x)− y ≤ 0
g2(x, y) = y − x ≤ 0
g3(x, y) = x− pi ≤ 0
O conjunto viável é dado pela figura a seguir:
Figura 19: Conjunto viável gerado pelo WolframAlpha .
Os gradientes das restrições são dados por:
223
∇g1(x, y) = (cos(x),−1)t
∇g2(x, y) = (−1, 1)t
∇g3(x, y) = (1, 0)t
Seja (x∗, y∗) o ponto procurado. Para que ele não necessariamente
satisfaça as condições KKT, é necessário que ele não seja regular, isto
é, que os gradientes das funções das restrições ativas em (x∗, y∗) não
sejam linearmente independentes. Para que isso ocorra, devem existir
pelo menos duas restrições ativas em (x∗, y∗), o que nos dá os seguintes
candidatos:
(x∗1, y
∗
1) = (0, 0) (g1(x
∗
1, y
∗
1) = g2(x
∗
1, y
∗
1) = 0)
(x∗2, y
∗
2) = (pi, 0) (g1(x
∗
2, y
∗
2) = g3(x
∗
2, y
∗
2) = 0)
(x∗3, y
∗
3) = (pi, pi) (g2(x
∗
3, y
∗
3) = g3(x
∗
3, y
∗
3) = 0)
Os conjuntos dos gradientes das funções das restrições ativas em cada
ponto são dados por:
{∇g1(x∗1, y∗1),∇g2(x∗1, y∗1)} = {(1,−1), (−1, 1)} (não L.I.)
{∇g1(x∗2, y∗2),∇g3(x∗2, y∗2)} = {(−1,−1), (1, 0)} (L.I.)
{∇g2(x∗3, y∗3),∇g3(x∗3, y∗3)} = {(−1, 1), (1, 0)} (L.I.)
Logo, definindo f(x, y) = x + y, temos que (x∗, y∗) = (x∗1, y
∗
1) = (0, 0)
é um ponto não regular que é o minimizador de f em S, pois x + y ≥
0 ∀(x, y) ∈ S e f(x∗, y∗) = 0.
Se (x∗, y∗) satisfizesse as condições KKT, pelo teorema 13.1 (p. 97 do
livro da Ana) existiria µ∗ ∈ R2+ tal que:
∇f(x∗, y∗) + µ∗1∇g1(x∗1, y∗1) + µ∗2∇g2(x∗1, y∗1) = 0
(1, 1)t + µ∗1(1,−1)t + µ∗2(−1, 1)t = 0
(1 + µ∗1 − µ∗2, 1− µ∗1 + µ∗2)t = 0
224
{
1 + µ∗1 − µ∗2 = 0
1− µ∗1 + µ∗2 = 0
Como o sistema anterior não tem solução (pois a matriz de coeficientes
tem determinante igual a 0, e portanto não é invertível), segue que
(x∗, y∗) = (0, 0) é um minimizador de f em S que não satisfaz as
condições KKT.
13.13 Considere o problema
maximizar x2 + (y − 1)2
s.a. y ≤ 2
y ≥ cos(pix)
x+ 1 ≥ 0
x− 1 ≤ 0
Resolva o problema graficamente e encontre os multiplicadores de La-
grange utilizando as condições Kuhn-Tucker.
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = x2 + (y − 1)2
s.a. g1(x) = y − 2 ≤ 0
g2(x) = cos(pix)− y ≤ 0
g3(x) = −x− 1 ≤ 0
g4(x) = x− 1 ≤ 0
O conjunto viável é dado pela figura a seguir:
225
Figura 20: Conjunto viável gerado pelo WolframAlpha .
Os gradientes das funções são dados por:
∇f(x, y) = (2x, 2(y − 1))t
∇g1(x, y) = (0, 1)t
∇g2(x, y) = (−pi sen(pix),−1)t
∇g3(x, y) = (−1, 0)t
∇g4(x,y) = (1, 0)t
Como f(x, y) = x2+(y−1)2 ≥ 0 para todo (x, y) viável, (x∗, y∗) = (0, 1)
é viável e f(x∗, y∗) = 0, temos que (x∗, y∗) = (0, 1) é a solução ótima,
sendo que I(x∗, y∗) = {j ∈ {1, 2, 3, 4} | gj(x∗, y∗) = 0} = {2}. Logo,
(x∗, y∗) é regular (pois há apenas uma restrição ativa em x∗), e portanto
pelo teorema 13.1 (p. 97 do livro da Ana) existe µ∗ ≥ 0 tal que:
∇f(x∗, y∗) + µ∗∇g2(x∗, y∗) = 0
(0, 0)t + µ∗(0,−1)t = 0
(µ∗,−µ∗)t = 0
µ∗ = 0
226
13.14 Seja f : Rn → R, f ∈ C1. Seja d˜ ∈ Rn a solução do seguinte problema:
minimizar ∇tf(x)d
s.a. Ad ≤ 0
‖d‖2 = ∑ni=1 d2i ≤ c
onde A ∈ Rm×n, m ≤ n, posto(A)= m e c > 0 é uma constante posi-
tiva. Escreva as condições de otimalidade e interprete geometricamente.
Prove que ∇tf(x)d˜ ≤ 0
O problema consiste em achar um vetor d que esteja no cone poliédrico
(intersecção de um número finito de semiespaços que contém a origem)
{d|Ad ≤ 0}, dentro da bola de raio √c centrada na origem e que
minimize o produto cos(θ) ‖d‖ (já que ∇tf(x)d = cos(θ) ‖∇f(x)‖ ‖d‖,
e ∇f(x) é constante ).
Supondo que d seja a variável do problema e sendo a1, . . . , am as linhas
de A, temos que o problema equivale a:
(P) minimizar f(d) = ∇tf(x)d
s.a. g1(d) = a
t
1d ≤ 0
.
.
.
gm(d) = a
t
md ≤ 0
gm+1(d) = −c+
∑n
i=1 d
2
i ≤ 0
Os gradientes das funções são dados por:
∇f(d) = ∇f(x)
∇g1(d) = a1
.
.
.
∇gm(d) = am
∇gm+1(d) = 2d
227
Observemos que, como posto(A)= m (posto linha completo), então
AAt ∈ Rm×m é invertível (resultado análogo ao obtido no exercício
1.2).
Suponhamos que d˜ seja um minimizador local regular de (P). Pelas
condições KKT (teorema 2.4.1 da p.22 do livro do Martínez), existem
µ∗ ∈ Rm+ , λ∗ ∈ R+ tal que:
∇f(d˜) +
m∑
i=1
µ∗i∇gi(d˜) + λ∗∇gm+1(d˜) = 0
µ∗i gi(d˜) = 0, i = 1, . . . ,m
λ∗gm+1(d˜) = 0
⇒
∇f(x) +
m∑
i=1
µ∗i ai + λ
∗2d˜ = 0
µ∗i a
t
id˜ = 0, i = 1, . . . ,m
λ∗(−c+∑ni=1 d˜2i ) = 0
⇒
∇f(x) + Atµ∗ + 2λ∗d˜ = 0
Ad˜ ◦ µ∗ = 0 (◦ é o produto de Hadamard)
λ∗(−c+∑ni=1 d˜2i ) = 0 ⇒
A(Atµ∗) = A(−∇f(x)− 2λ∗d˜)
Ad˜ ◦ µ∗ = 0
λ∗(−c+∑ni=1 d˜2i ) = 0 ⇒
µ∗ = (AAt)−1A(−∇f(x)− 2λ∗d˜)
Ad˜ ◦ µ∗ = 0
λ∗(−c+∑ni=1 d˜2i ) = 0 ⇒
µ∗ = −(AAt)−1A∇f(x)− 2λ∗(AAt)−1Ad˜ (∗)
Ad˜ ◦ µ∗ = 0
λ∗(−c+∑ni=1 d˜2i ) = 0 ⇒
µ∗ ◦ µ∗ = −(AAt)−1A∇f(x) ◦ µ∗ − 2λ∗(AAt)−1�����: 0Ad˜ ◦ µ∗
Ad˜ ◦ µ∗ = 0
λ∗(−c+∑ni=1 d˜2i ) = 0
⇒
µ∗ = −(AAt)−1A∇f(x)
Ad˜ ◦ (−(AAt)−1A∇f(x)) = 0
λ∗(−c+∑ni=1 d˜2i ) = 0
−2λ∗(AAt)−1Ad˜ = 0 (por (∗))
⇒
228
µ∗ = −(AAt)−1A∇f(x)
diag(at1d˜, . . . , a
t
md˜)(−(AAt)−1A∇f(x)) = 0
λ∗(−c+∑ni=1 d˜2i ) = 0
−2λ∗(AAt)−1Ad˜ = 0
⇒
Além disso, temos que:
µ∗ ≥ 0
−(AAt)−1A∇f(x) ≥ 0 = −2λ∗(AAt)−1Ad˜
(AAt)−1A∇f(x) ≤ 0 = (AAt)−1A(2λ∗d˜)
∇f(x) ≤ 0 = 2λ∗d˜ (pois (AAt)−1A tem posto completo(∗∗))
∇tf(x)d˜ ≤ 0 = 2λ∗d˜td˜
Geometricamente, temos então que d˜ satisfaz as condições necessárias
para ser uma direção de descida para f em x (já que ∇tf(x)d˜ ≤ 0 ).
(∗∗) Consideremos a desigualdade de postos de Sylvester : se A ∈ Rm×n
e B ∈ Rn×k, então posto(AB) ≥ posto(A) + posto(A) −n. Para o caso
do produto (AAt)−1A (com (AAt)−1 ∈ Rm×m, A ∈ Rm×n), temos:
posto((AAt)−1A) ≥ posto((AAt)−1) + posto(A)−m
= m+m−m
= m
Como m ≤ n, temos também que:
posto((AAt)−1A) ≤ min(m,n)
= m
Portanto, das duas últimas desigualdades segue que posto((AAt)−1A)
= m (isto é, (AAt)−1A tem posto completo).
229
1.14 Capítulo 14 - Algoritmos para restrições não-lineares
14.1 Proponha um método que combine penalização com barreira para
minimizar ctx
s.a. Ax = b
x ≥ 0
onde c, x ∈ Rn, b ∈ Rm e A ∈ Rm×n. Calcule o gradiente da função
penalizada.
Para o problema
minimizar f(x)
s.a. h(x) = 0
, pelo método de penalização temos que a função objetivo do problema
irrestrito associado (para o parâmetro µ > 0) é (pela p. 106 do livro
da Ana) é
φ(x, µ) = f(x) + µ
m∑
i=1
(hi(x))
2
.
Para o problema
minimizar f(x)
s.a. g(x) ≤ 0
, pelo método de barreira temos que uma função objetivo do problema
irrestrito associado (para o parâmetro µ > 0) é (pela p. 107 do livro
da Ana) é
φ(x, µ) = f(x)− µ
n∑
i=1
ln(−gi(x))
.
230
Para o método de penalização precisamos que a sequência de parâ-
metros {µk} seja tal que µk k→∞−−−→ +∞, enquanto para o método de
barreira precisamos que µk
k→∞−−−→ 0+ Portanto, se considerarmos o pro-
blema com ambos os tipos de restrições
minimizar f(x)
s.a. h(x) = 0
g(x) ≤ 0
, temos que um método que combine penalização com barreira irá tentar
minimizar irrestritamente a função
φ(x, µk) = f(x) + µk︸︷︷︸
→+∞
m∑
i=1
(hi(x))
2 +
1
µk︸︷︷︸
→0+
n∑
i=1
[− ln(−gi(x))]
, usando o algoritmo 14.1 (p.106 do livro da Ana) com uma sequên-
cia µk > 0 tal que µk
k→∞−−−→ +∞ e com um ponto inicial que esteja no
interior da região viável (considerando apenas as restrições de desigual-
dade) .
No caso particular do enunciado, temos que o problema é dado por:
minimizar f(x) = ctx
s.a. h(x) = Ax− b = 0
g(x) = −x ≤ 0
Logo, para µ > 0 (sendo a1, . . . , am as linhas de A), a função penalizada
fica:
231
φ(x, µ) = f(x) + µ
m∑
i=1
(hi(x))
2 − 1
µ
n∑
i=1
ln(−gi(x))
= ctx+ µ
m∑
i=1
(atix− bi)2 −
1
µ
n∑
i=1
ln(−[−xi])
= ctx+ µ
m∑
i=1
(atix− bi)2 −
1
µ
n∑
i=1
ln(xi)
Além disso, o gradiente da função penalizada em relação a x é dado
por:
∇xφ(x, µ) = ∇(ctx) + µ
m∑
i=1
∇[(atix− bi)2]−
1
µ
n∑
i=1
∇[ln(xi)]
= c+ µ∇(‖Ax− b‖22)−
1
µ
(
1
x1
, . . . ,
1
xn
)t
= c+ 2µAt(Ax− b)− 1
µ
(
1
x1
, . . . ,
1
xn
)t
14.2 Considere a função de penalização
φλ,µ(x) = f(x) +
m∑
i=1
µi exp(
λihi(x)
µi
)
onde µ, λ ∈ Rm, µi > 0, i = 1, . . . ,m, para resolver o problema (P):
minimizar f(x)
s.a. hi(x) = 0, i = 1, . . . ,m
Seja x˜ uma solução regular de (P) com multiplicadores associados λ˜ ∈
Rm. Prove que x˜ é um ponto estacionário de φλ˜,µ(x).
Como x˜ é uma solução regular de (P) com multiplicadores associados
λ˜ ∈ Rm, então pelo teorema 13.1 (p. 97 do livro da Ana) temos que:
232
∇f(x˜) + J th(x˜)λ˜ = 0
∇f(x˜) +
m∑
i=1
λ˜i∇hi(x˜) = 0
∇f(x˜) = −
m∑
i=1
λ˜i∇hi(x˜)
Além disso, o gradiente de φλ,µ(x) é dado por:
∇φλ,µ(x) = ∇f(x) +
m∑
i=1
µi∇[exp(λihi(x)
µi
)]
= ∇f(x) +
m∑
i=1
��µi exp(
λihi(x)
µi
)
λi
��µi
∇hi(x)
= ∇f(x) +
m∑
i=1
exp(
λihi(x)
µi
)λi∇hi(x)
Daí segue que:
∇φλ˜,µ(x˜) = ∇f(x˜) +
m∑
i=1
exp(
λ˜ihi(x˜)
µi
)λ˜i∇hi(x˜)
= −
m∑
i=1
λ˜i∇hi(x˜) +
m∑
i=1
exp(
λ˜ihi(x˜)
µi
)λ˜i∇hi(x˜)
=
m∑
i=1
[exp(
λ˜ihi(x˜)
µi
)− 1]λ˜i∇hi(x˜)
(x˜ é solução de (P) ⇒ x˜ é factível ⇒ hi(x˜) = 0 ∀i = 1, . . . ,m)
=
m∑
i=1
[exp(0)− 1]λ˜i∇hi(x˜)
=
m∑
i=1
0λ˜i∇hi(x˜)
= 0
233
Logo, x˜ é um ponto estacionário de φλ˜,µ(x˜).
14.3 Considere o problema de minimizar f sujeita a x ∈ R = {x ∈ Rn|g(x) ≤
0}. Para os seguintes casos, desenhe as curvas de nível da função pe-
nalizada.
Como o problema tem apenas restrições de desigualdades, supomos
que a penalização em questão seja do tipo �barreira� (dada pela função
B(x)). Logo, para µ > 0, a função penalizada (p. 107 do livro da Ana)
fica:
φ(x, µ) = f(x) + µB(x) = f(x)− µ
m∑
i=1
1
gi(x)
Temos que B(x) = −
m∑
i=1
1
gi(x)
é suave, não-negativa (para pontos viá-
veis) e tende a +∞ se algum gi(x) → 0 (com g(x) < 0). Portanto, de
forma geral, os valores da função penalizada φ(x, µ) serão semelhantes
aos valores de f para pontos mais para o interior da região viável, e
irão tender a +∞ se estiverem perto da fronteira da região viável.
(a)
Observemos que uma função que possui curvas de níveis parecidas
com essa é a função f(x, y) = −(x+10)2−(y+10)2, como aparece
na figura a seguir:
234
Figura21: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Além disso, desigualdades que definem uma região parecida são
dadas por
g1(x, y) = (
x
4
cos(0.48) +
y
4
sen(0.48))2 − 10 + x sen(0.48)− y cos(0.48) ≤ 0
g2(x, y) = (
x
4
cos(−2.64) + y
4
sen(−2.64))2 − 10 + x sen(−2.64)− y cos(−2.64) ≤ 0
, como aparece a seguir:
235
Figura 22: Conjunto viável gerado pelo WolframAlpha.
Portanto, a função penalizada é dada por
φ(x, y, µ) = −(x+ 20)2 − (y + 20)2
− µ[ 1
(x
4
cos(0.48) + y
4
sen(0.48))2 − 10 + x sen(0.48)− y cos(0.48)+
1
(x
4
cos(−2.64) + y
4
sen(−2.64))2 − 10 + x sen(−2.64)− y cos(−2.64)]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ(x, y, µ):
236
Figura 23: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
(b)
Observemos que uma função que possui curvas de níveis parecidas
com essa é a função f(x, y) = 2x + y, como aparece na figura a
seguir:
237
Figura 24: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Além disso, desigualdades que definem uma região parecida são
dadas por g1(x, y) = x
2 + y2−1 ≤ 0 e g2(x, y) = 2x+ y ≤ 0, como
aparece a seguir:
Figura 25: Conjunto viável gerado pelo WolframAlpha.
Portanto, a função penalizada é dada por
φ(x, y, µ) = 2x+ y − µ[ 1
x2 + y2 − 1 +
1
2x+ y
]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ(x, y, µ):
238
Figura 26: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
(c)
Observemos que uma função que possui curvas de níveis parecidas
com essa é a função f(x, y) = x + 2y, como aparece na figura a
seguir:
Figura 27: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Além disso, desigualdades que definem uma região parecida são
239
dadas por g1(x, y) = tan(
pi
8
)x−y ≤ 0 e g2(x, y) = − tan(3pi8 )x+y ≤
0, como aparece a seguir:
Figura 28: Conjunto viável gerado pelo WolframAlpha.
Portanto, a função penalizada é dada por
φ(x, y, µ) = x+ 2y − µ[ 1
tan(pi
8
)x− y +
1
y − tan(3pi
8
)x
]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ(x, y, µ):
Figura 29: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
240
(d)
Observemos que uma função que possui curvas de níveis parecidas
com essa é a função f(x, y) = x2 − xy + y2 (paraboloide elíptico),
como aparece na figura a seguir:
Figura 30: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Além disso, desigualdades que definem uma região parecida são
dadas por g1(x, y) = 2y
2−x2−1 ≤ 0 e g2(x, y) = 2x2−y2−1 ≤ 0,
como aparece a seguir:
241
Figura 31: Conjunto viável gerado pelo WolframAlpha.
Portanto, a função penalizada é dada por
φ(x, y, µ) = x2 − xy + y2 − µ[ 1
2y2 − x2 − 1 +
1
2x2 − y2 − 1]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ(x, y, µ):
Figura 32: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
14.4 Considere o problema de minimizar f sujeita a x ∈ S, onde f : Rn → R
e S ⊆ Rn . Seja P uma função de penalização para S e suponha
242
que a função penalizada q(x, µ) = f(x) + µP (x) para µ = µ˜ tem um
minimizador global em x˜ e que x˜ ∈ S. Prove que x˜ é um minimizador
global do problema original. Interprete.
Suponhamos que a função de penalização tenha as propriedades de ser
suave, ser não negativa (P (x) ≥ 0 ∀x ∈ Rn) e ser nula para, e somente
para, os pontos viáveis (P (x) = 0 ⇐⇒ x ∈ S). Como x˜ é minimizador
global de q(x, µ˜), temos que:
q(x˜, µ˜) ≤ q(x, µ˜) ∀x ∈ Rn
f(x˜) + µ˜P (x˜) ≤ f(x) + µ˜P (x) ∀x ∈ Rn
(x˜ ∈ S ⇒ P (x˜) = 0)
f(x˜) ≤ f(x) + µ˜P (x) ∀x ∈ Rn
(x ∈ S ⇒ P (x) = 0)
f(x˜) ≤ f(x) ∀x ∈ S
Logo, x˜ é um minimizador global do problema original. A interpretação
é que, para um valor suficientemente grande de µ (no caso, µ = µ˜),
para minimizar q(x, µ) = f(x) +µP (x) temos que fazer P (x) = 0 (pois
P (x) ≥ 0 ∀x ∈ Rn). Como P (x) = 0 ⇐⇒ x ∈ S, isso acaba fazendo
com que a função de penalização �suma� e portanto q(x, µ) = f(x) com
x ∈ S para µ suficientemente grande, o que faz um minimizador de
q(x, µ) ser também um minimizador de f(x).
14.5 Seja x˜ minimizador global de f sujeita a x ∈ S, onde f : Rn → R
e S ⊆ Rn . Seja x¯ um ponto não factível para esse problema. Prove
que existe µ¯ > 0 tal que q(x˜, µ) ≤ q(x¯, µ) para todo µ ≥ µ¯, onde
q(x, µ) = f(x) + µP (x) e P é uma função de penalização para S.
Suponhamos que a função de penalização tenha as propriedades de ser
suave, ser não negativa (P (x) ≥ 0 ∀x ∈ Rn) e ser nula para, e somente
para, os pontos viáveis (P (x) = 0 ⇐⇒ x ∈ S).
demonstração 1 (contrapositiva): Provemos a contrapositiva: su-
ponhamos que, para todo µ¯ > 0, temos que q(x˜, µ) > q(x¯, µ) para todo
µ ≥ µ¯. Logo, para todo µ¯ > 0 segue que:
243
q(x˜, µ) > q(x¯, µ) ∀µ ≥ µ¯
f(x˜) + µP (x˜) > f(x¯) + µP (x¯) ∀µ ≥ µ¯
(x˜ ∈ S ⇒ P (x˜) = 0)
f(x˜) > f(x¯) + µP (x¯) ∀µ ≥ µ¯
Suponhamos que x˜ seja minimizador global de f sujeita a x ∈ S e que
x¯ seja um ponto não factível para esse problema. Ambas as suposições
não podem ser verdadeiras ao mesmo tempo, pois pela inequação acima
teríamos f(x˜)
µ→∞−−−→ +∞ (pois P (x¯) > 0, já que x¯ não é factível), o que
é uma contradição com o fato de x˜ ser minimizador global de f sujeita
a x ∈ S.
Logo, x˜ não é minimizador global de f sujeita a x ∈ S ou x¯ não é um
ponto não factível para esse problema, o que prova a contrapositiva do
enunciado.
demonstração 2 (direta): Queremos provar que existe µ¯ > 0 tal que
q(x˜, µ) ≤ q(x¯, µ) ∀µ ≥ µ¯
f(x˜) + µP (x˜) ≤ f(x¯) + µP (x¯) ∀µ ≥ µ¯
(x˜ ∈ S ⇒ P (x˜) = 0)
f(x˜) ≤ f(x¯) + µP (x¯) ∀µ ≥ µ¯
Como x¯ não é factível, P (x¯) > 0. Logo, existe µ¯ > 0 suficientemente
grande tal que:
f(x˜) ≤ f(x¯) + µ¯P (x¯)
≤ f(x¯) + µP (x¯) ∀µ ≥ µ¯
14.6 Considere o problema
minimizar ctx
s.a. l ≤ x ≤ u
244
, onde x, l, u ∈ Rn.
(a) Encontre as condições de otimalidade;
Temos que o problema é equivalente a
(P) minimizar f(x) = ctx
s.a. g1(x) = x1 − u1 ≤ 0
.
.
.
gn(x) = xn − un ≤ 0
gn+1(x) = −x1 + l1 ≤ 0
.
.
.
g2n(x) = −xn + ln ≤ 0
Como a linearidade das restrições é uma condição de qualificação,
se x∗ é um minimizador local de (P), então pelo teorema 2.4.1 do
livro do Martínez (p. 22, condições KKT gerais) existe λ∗ ∈ R2n+
tal que:
∇f(x∗) +∑2ni=1 λ∗i∇gi(x∗) = 0
λ∗i gi(x
∗) = 0 ∀i = 1, . . . , 2n
gi(x
∗) ≤ 0 ∀i = 1, . . . , 2n
⇒
c+
∑n
i=1 λ
∗
i (0, . . . , 0,
pos. i︷︸︸︷
1 , 0, . . . , 0)t +
+
∑2n
i=n+1 λ
∗
i (0, . . . , 0,
pos. n−i︷︸︸︷
−1 , 0, . . . , 0)t = 0
λ∗i (x
∗
i − ui) = 0 ∀i = 1, . . . , n
λ∗i (−x∗i−n + l∗i−n) = 0 ∀i = n+ 1, . . . , 2n
x∗i − ui ≤ 0 ∀i = 1, . . . , n
−x∗i + l∗i ≤ 0 ∀i = 1, . . . , n
⇒
ci + λ
∗
i − λ∗i+n = 0 ∀i = 1, . . . , n
λ∗i (x
∗
i − ui) = 0 ∀i = 1, . . . , n
λ∗i (−x∗i−n + l∗i−n) = 0 ∀i = n+ 1, . . . , 2n
x∗i − ui ≤ 0 ∀i = 1, . . . , n
−x∗i + l∗i ≤ 0 ∀i = 1, . . . , n
⇒
245
(b) Faça um desenho em R2, considerando os diferentes casos possíveis
relativos à localização da solução.
Como se trata de um problema de programação linear, então os
candidatos a soluções no problema estão nos vértices do paralele-
pípedo definido pelos vetores l e u.
Em R2, suponhamos que l = (1, 1)t e u = (3, 2)t. O conjunto
viável é dado pela figura a seguir:
O conjunto viável é dado pela figura a seguir:
Figura 33: Conjunto viável gerado pelo WolframAlpha .
Logo, os vérticesdo paralelepípedo (retângulo em R2) são x∗1 =
(1, 1)t, x∗2 = (3, 2)
t
, x∗3 = (1, 2)
t
e x∗4 = (3, 1)
t
.
Para f1(x) = x1+x2, pelas curvas de nível da função podemos ver
que a solução ótima é x∗1 = (1, 1)
t
, como mostra a figura a seguir:
246
Figura 34: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f2(x) = −x1 − x2, pelas curvas de nível da função podemos
ver que a solução ótima é x∗2 = (3, 2)
t
, como mostra a figura a
seguir:
Figura 35: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
247
Para f3(x) = x1−x2, pelas curvas de nível da função podemos ver
que a solução ótima é x∗3 = (1, 2)
t
, como mostra a figura a seguir:
Figura 36: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f4(x) = −x1 + x2, pelas curvas de nível da função podemos
ver que a solução ótima é x∗4 = (3, 1)
t
, como mostra a figura a
seguir:
248
Figura 37: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
(c) Nos diferentes casos, desenhe as curvas de nível da função penali-
zada.
Para o caso em R2 descrito no item (b), temos que o problema é
dado por:
(P) minimizar f(x) = ctx
s.a. g1(x) = x1 − 3 ≤ 0
g2(x) = x2 − 2 ≤ 0
g3(x) = −x1 + 1 ≤ 0
g4(x) = −x2 + 1 ≤ 0
Para f(x) = f1(x) = x1 + x2, a função penalizada é dada por:
φ1(x, µ) = x1 + x2 − µ[ 1
x1 − 3 +
1
x2 − 2 +
1
−x1 + 1 +
1
−x2 + 1]
249
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ1(x, µ):
Figura 38: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f(x) = f2(x) = −x1 − x2, a função penalizada é dada por:
φ2(x, µ) = −x1 − x2 − µ[ 1
x1 − 3 +
1
x2 − 2 +
1
−x1 + 1 +
1
−x2 + 1]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ2(x, µ):
250
Figura 39: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f(x) = f3(x) = x1 − x2, a função penalizada é dada por:
φ3(x, µ) = x1 − x2 − µ[ 1
x1 − 3 +
1
x2 − 2 +
1
−x1 + 1 +
1
−x2 + 1]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ3(x, µ):
251
Figura 40: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f(x) = f4(x) = −x1 + x2, a função penalizada é dada por:
φ4(x, µ) = −x1 + x2 − µ[ 1
x1 − 3 +
1
x2 − 2 +
1
−x1 + 1 +
1
−x2 + 1]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ4(x, µ):
252
Figura 41: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Portanto observamos que, em todos os casos, as funções penali-
zadas têm curvas de nível semelhantes, já que os pontos ótimos
estão justamente na fronteira do conjunto viável (e portanto são
esses os pontos que mais são penalizados).
14.7 Considere o problema de minimizar f sujeita a x ∈ S, onde S ⊆ Rn
. Seja xˆ(µ) minimizador local da função penalizada q(x, µ) = f(x) +
µP (x), onde P é uma função de penalização para S. Seja x˜ = lim
µ→∞
xˆ(µ).
Suponha que x˜ ∈ S. O que você pode afirmar sobre x˜ em relação ao
problema original?
Suponhamos que a função de penalização tenha as propriedades de ser
suave, ser não negativa (P (x) ≥ 0 ∀x ∈ Rn) e ser nula para, e somente
para, os pontos viáveis (P (x) = 0 ⇐⇒ x ∈ S).
Como xˆ(µ) é minimizador local da função penalizada q(x, µ) = f(x) +
µP (x), então existe ε > 0 tal que:
253
q(xˆ(µ), µ) ≤ q(x, µ) ∀x ∈ B(xˆ(µ), ε)
f(xˆ(µ)) + µP (xˆ(µ)) ≤ f(x) + µP (x) ∀x ∈ B(xˆ(µ), ε)
(para P e f contínuas, tomando lim
µ→∞
de ambos os lados temos:)
f(x˜) + µP (x˜) ≤ f(x) + µP (x) ∀x ∈ B(x˜, ε)
(x˜ ∈ S ⇒ P (x˜) = 0)
f(x˜) ≤ f(x) + µP (x) ∀x ∈ B(x˜, ε)
(x ∈ B(x˜, ε) ∩ S ⇒ P (x) = 0)
f(x˜) ≤ f(x) ∀x ∈ B(x˜, ε) ∩ S
Portanto, x˜ é minimizador local de f sujeita a x ∈ S (que é o problema
original).
14.8 Considere o problema de minimizar f(x) sujeita a h(x) = 0, f : Rn →
R, h : Rn → Rm e f, h ∈ C1 . Seja x˜ uma solução regular desse pro-
blema. Suponha que pelo menos um dos multiplicadores de Lagrange
associados a x˜ é diferente de zero. Prove que x˜ não é minimizador local
de q(x, µ) ≡ f(x) + µ ‖h(x)‖2 para nenhum valor finito de µ.
Provemos a contrapositiva: suponhamos que x˜ seja minimizador local
de q(x, µ) ≡ f(x) + µ ‖h(x)‖2 para todo valor finito de µ. Portanto,
temos que:
∇q(x˜, µ) = 0
∇f(x˜) + 2µ
m∑
i=1
hi(x˜)∇hi(x˜) = 0 (i)
Como x˜ é solução regular do problema f(x) sujeita a h(x) = 0, pelas
condições KKT (teorema 2.4.1 da p.22 do livro do Martínez), então
existe um único λ∗ ∈ Rm tal que :
254
∇f(x˜) +
m∑
i=1
λ∗i∇hi(x˜) = 0
∇f(x˜) = −
m∑
i=1
λ∗i∇hi(x˜) (ii)
Utilizando (ii) em (i), obtemos:
−
m∑
i=1
λ∗i∇hi(x˜) + 2µ
m∑
i=1
hi(x˜)∇hi(x˜) = 0
m∑
i=1
(2µhi(x˜)− λ∗i )∇hi(x˜) = 0
Como x˜ é solução regular do problema f(x) sujeita a h(x) = 0, então
o conjunto {∇h1(x˜), . . . ,∇hm(x˜)} é linearmente independente. Logo,
pela equação anterior temos que todos os coeficientes da combinação
linear dos gradientes das restrições devem ser nulos, isto é:
2µhi(x˜)− λ∗i = 0 ∀i = 1, . . . ,m
λ∗i = 2µhi(x˜) ∀i = 1, . . . ,m
(x˜ é solução do problema⇒ hi(x˜) = 0 ∀i = 1, . . . ,m)
λ∗i = 0 ∀i = 1, . . . ,m
Poranto, todos os multiplicadores de Lagrange associados a x˜ são iguais
a zero, o que prova a contrapositiva do enunciado.
14.9 Considere o problema de minimizar f(x) sujeita a h(x) = 0, onde
f : Rn → R e h : Rn → Rm. Considere o problema penalizado, de
minimizar q(x, µ) ≡ f(x)+µ ‖h(x)‖22 . Mostre que os multiplicadores de
Lagrange resultam ser os limites de certas quantidades que dependem
do parâmetro de penalização.
255
Seja xˆ(µ) minimizador local da função penalizada q(x, µ) . Seja x˜ =
lim
µ→∞
xˆ(µ), e suponhamos x˜ viável (i.e., h(x˜) = 0).
Como xˆ(µ) é minimizador local de q(x, µ), temos que:
∇q(xˆ(µ), µ) = 0
∇f(xˆ(µ)) + 2µ
m∑
i=1
hi(xˆ(µ))∇hi(xˆ(µ)) = 0
(para h e f contínuas, tomando lim
µ→∞
de ambos os lados temos:)
∇f(x˜) +
m∑
i=1
[ lim
µ→∞
2µhi(x˜)]∇hi(x˜) = 0
Pelo exercício 14.7, sabemos que x˜ é minimizador local de f(x) sujeita
a h(x) = 0. Logo, pela unicidade dos multiplicadores de Lagrange
(teorema 2.4.1 da p.22 do livro do Martínez) e pela equação anterior,
temos que os multiplicadores de Lagrange do problema restrito (mini-
mizar f(x) sujeita a h(x) = 0) são:
λi = lim
µ→∞
2µhi(x˜) ∀i = 1, . . . ,m
Logo, multiplicadores de Lagrange resultam ser os limites de certas
quantidades que dependem do parâmetro de penalização (µ).
14.10 Suponhamos que, ao aplicar o método de penalização ao problema
minimizar −x1 − x2 + x3
s.a. x31 + x3 ≤ 1
x21 + x
2
2 + x
2
3 ≤ 1
0 ≤ x3 ≤ 1
obtivemos os seguintes resultados:
256
k µk x
k
0 1 (0.8344, 0.8344,−0.4548)t
1 10 (0.7283, 0.7283,−0.0879)t
2 100 (0.7096, 0.7096,−0.0099)t
3 1000 (0.7074, 0.7074,−0.0010)t
Utilize os dados acima para estimar a solução ótima e os multiplicadores
de Lagrange, juntamente com as restrições ativas. Discuta a precisão
atingida.
O problema acima pode ser reescrito como:
minimizar f(x) = −x1 − x2 + x3
s.a. g1(x) = x
3
1 + x3 − 1 ≤ 0
g2(x) = x
2
1 + x
2
2 + x
2
3 − 1 ≤ 0
g3(x) = x3 − 1 ≤ 0
g4(x) = −x3 ≤ 0
Analisemos (x∗)′ = (0.7074, 0.7074,−0.0010)t (aproximação da solução
ótima na iteração k = 3). As restrições �quase� ativas em (x∗)′ são
dadas pelo conjunto I = {2, 4}. Os gradientes das funções são dados
por:
∇f(x) = (−1,−1, 1)t
∇g1(x) = (3x1, 0, 1)t
∇g2(x) = (2x1, 2x2, 2x3)t
∇g3(x) = (0, 0, 1)t
∇g4(x) = (0, 0,−1)t
Seja x∗ o mínimo local que está supostamentepróximo de (x∗)′. Pelas
coordenadas de (x∗)′, se assumirmos x∗1 6= 0, x∗2 6= 0, x∗3 = 0, para
a, b ∈ R temos que:
257
a∇g2(x∗) + b∇g4(x∗) = 0⇒
a(2x∗1, 2x
∗
2, 2(0))
t + b(0, 0,−1)t = 0⇒
(2ax∗1, 2ax
∗
2,−b)t = 0⇒
a = b = 0
Logo, {∇g2(x∗),∇g4(x∗)} é um conjunto linearmente independente, e
assim x∗ é regular. Logo, pelas condições KKT (teorema 2.4.1 da p.22
do livro do Martínez), existe único µ∗ ∈ R2+ tal que:
∇f(x∗) + µ∗1∇g2(x∗) + µ∗2∇g4(x∗) = 0
g2(x
∗) = 0
g4(x
∗) = 0
g1(x
∗) ≤ 0
g3(x
∗) ≤ 0
⇒
(−1,−1, 1)t + µ∗1(2x∗1, 2x∗2, 2x∗3)t + µ∗2(0, 0,−1)t = 0
(x∗1)
2 + (x∗2)
2 + (x∗3)
2 − 1 = 0
−x∗3 = 0
(x∗1)
3 + x∗3 − 1 ≤ 0
x∗3 − 1 ≤ 0
x∗3=0==⇒
(−1 + 2µ∗1x∗1,−1 + 2µ∗1x∗2, 1− µ∗2)t = 0
(x∗1)
2 + (x∗2)
2 = 1
x∗3 = 0
(x∗1)
3 − 1 ≤ 0
⇒
−1 + 2µ∗1x∗1 = 0
−1 + 2µ∗1x∗2 = 0
1− µ∗2 = 0
(x∗1)
2 + (x∗2)
2 = 1
x∗3 = 0
(x∗1)
3 − 1 ≤ 0
⇒
258
µ∗1 =
1
2x∗1
µ∗1 =
1
2x∗2
µ∗2 = 1
(x∗1)
2 + (x∗2)
2 = 1
x∗3 = 0
(x∗1)
3 − 1 ≤ 0
⇒
µ∗1 =
1
2x∗1
µ∗2 = 1
x∗1 = x
∗
2
(x∗1)
2 + (x∗2)
2 = 1
x∗3 = 0
(x∗1)
3 − 1 ≤ 0
⇒
x∗1 = x
∗
2 = ±
√
2
2
µ∗1 =
1
2x∗1
= ±
√
2
2
µ∗2 = 1
Como a função objetivo é f(x) = −x1−x2 +x3, então o ponto estacio-
nário que minimiza f no conjunto viável é x∗ = (
√
2
2
,
√
2
2
, 0)t. Portanto,
em relação à solução, a precisão atingida foi de:
‖x∗ − (x∗)′‖2 =
∥∥∥∥∥(
√
2
2
,
√
2
2
, 0)t − (0.7074, 0.7074,−0.0010)t
∥∥∥∥∥
2
=
√
(
√
2
2
− 0.7074)2 + (
√
2
2
− 0.7074)2 + (0 + 0.0010)2
≈ 0.00108
≈ 10−3
Como a penalização correspondente a essa solução foi de µ = 1000 =
103, faz sentido que a precisão da solução seja algo inversamente pro-
porcional a µ (que foi o que ocorreu).
Estimemos agora os multiplicadores (µ∗)′ a partir de (x∗)′ = (0.7074, 0.7074,−0.0010)t.
Temos que:
259
∇f((x∗)′) + (µ∗1)′∇g2((x∗)′) + (µ∗2)′∇g4((x∗)′) = 0
(−1,−1, 1)t + (µ∗1)′(2(0.7074), 2(0.7074), 2(−0.0010))t + (µ∗2)′(0, 0,−1)t = 0
(−1 + 1.4148(µ∗1)′,−1 + 1.4148(µ∗1)′, 1− 0.0020(µ∗1)′ − (µ∗2)′)t = 0
{
−1 + 1.4148(µ∗1)′ = 0
1− 0.0020(µ∗1)′ − (µ∗2)′ = 0
⇒{
(µ∗1)
′ = 1
1.4148
≈ 0.7068
(µ∗2)
′ = 1− 0.0020(µ∗1)′ = 1− 0.00201.4148 = 1.41281.4148 ≈ 0.9985
Portanto, em relação aos multiplicadores, a precisão atingida foi de:
‖µ∗ − (µ∗)′‖2 =
∥∥∥∥∥(
√
2
2
, 1)t − ( 1
1.4148
,
1.4128
1.4148
)t
∥∥∥∥∥
2
=
√
(
√
2
2
− 1
1.4148
)2 + (1− 1.4128
1.4148
)2
≈ 0.00144
≈ 10−3
Novamente, como a penalização correspondente a essa solução foi de
µ = 1000 = 103, faz sentido que a precisão dos multiplicadores seja
algo inversamente proporcional a µ (que foi o que ocorreu).
2 Exercícios dados em aula
2.1 Convexidade
1. Prove que se {Ci}i∈I é uma família (possivelmente infinita) de conjuntos
convexos, então
⋂
i∈I
Ci é convexo.
Seja {Ci}i∈I uma família (possivelmente infinita) de conjuntos con-
vexos, e sejam x, y ∈ ⋂
i∈I
Ci. Para cada i ∈ I, como Ci é convexo,
∀λ ∈ [0, 1] segue que λx + (1− λ)y ∈ Ci. Logo, todas as combinações
260
convexas de elementos de
⋂
i∈I
Ci estão em todos os Ci para i ∈ I, isto é,
estão em
⋂
i∈I
Ci. Portanto,
⋂
i∈I
Ci é convexo.
2. Prove que se C1 e C2 são convexos, então C1 + C2 = {c1 + c2 | ci ∈
C1, c2 ∈ C2} é convexo.
Sejam x, y ∈ C1+C2 e λ ∈ [0, 1]. Logo, existem x1, y1 ∈ C1 e x2, y2 ∈ C2
tais que x = x1 + x2 e y = y1 + y2. Temos então que:
λx+ (1− λ)y = λ(x1 + x2) + (1− λ)(y1 + y2)
= x1 + (1− λ)y1︸ ︷︷ ︸
∈C1
+x2 + (1− λ)y2︸ ︷︷ ︸
∈C2
Logo, x+ (1− λ)y ∈ C1 +C2. Como x, y, λ foram escolhidos arbitrari-
amente, segue que C1 + C2 é convexo.
3. Prove que se T : Rn → Rm é uma transformação linear e C é convexo,
então T (C) = {T (c) | c ∈ C} é convexo.
Sejam x, y ∈ T (C) e λ ∈ [0, 1]. Logo, existem x0, y0 ∈ C tais que
T (x0) = x e T (y0) = y. Temos então que:
λx+ (1− λ)y = T (x0) + (1− λ)T (y0)
= T (x0) + T ((1− λ)y0)
= T (x0 + (1− λ)y0︸ ︷︷ ︸
∈C
)
Logo, x + (1 − λ)y ∈ T (C). Como x, y, λ foram escolhidos arbitraria-
mente, segue que T (C) é convexo.
4. Prove que se C é convexo e f : C → R, então o conjunto de nível
{x ∈ C | f(x) ≤M} é convexo ∀M .
Seja nivM(f) = {x ∈ C | f(x) ≤ M} o conjunto de nível de f corres-
pondente à constante M ∈ R.
Provemos que nivM(f) é um conjunto convexo. Para x, y ∈ nivM(f) e
λ ∈ [0, 1], temos que:
261
f(λx+ (1− λ)y) ≤ λf(x) + (1− λ)f(y) (f é convexa)
≤ λM + (1− λ)M (x, y ∈ nivM(f))
= M
Logo, λx+ (1−λ)y ∈ nivM(f). Como x, y, λ são arbitrários, segue que
nivM(f) é um conjunto convexo.
5. Prove que se f é afim, então f é convexa (não estrita). Além disso,
prove que {x ∈ C | f(x) = M} é convexo ∀M .
Consideremos f : Rn → Rm uma função afim. Logo, existem A ∈ Rm×n
e b ∈ Rm tais que f(x) = Ax+ b.
Sejam x, y ∈ Rn e λ ∈ [0, 1]. Temos que:
f(λx+ (1− λ)y) = A(λx+ (1− λ)y) + (λ+ (1− λ))b
= λAx+ λb+ (1− λ)Ay + (1− λ)b
= λ(Ax+ b) + (1− λ)(Ay + b)
= λf(x) + (1− λ)f(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que f é convexa.
Além disso, sejam z, w ∈ {x ∈ C | f(x) = M} e λ ∈ [0, 1]. Pelas
equações acima temos que:
f(λz + (1− λ)w) = λf(z) + (1− λ)f(w)
= λM + (1− λ)M
= M
Logo, λz + (1 − λ)w ∈ {x ∈ C | f(x) = M}. Como z, w, λ são
arbitrários, segue que {x ∈ C | f(x) = M} é um conjunto convexo.
6. Prove que se f é quadrática , i.e., f(x) = 1
2
xtAx+ btx+ c, x ∈ Rn e A
é semidefinida positiva, então f é convexa (a recíproca também vale).
262
⇒ Sejam x, y ∈ Rn e λ ∈ [0, 1]. Temos que:
f(λx+ (1− λ)y) = f(y + λ(x− y))
=
1
2
(y + λ(x− y))tA(y + λ(x− y)) + bt(y + λ(x− y)) + c
=
1
2
ytAy + λ(x− y)tAy + 1
2
λ2︸︷︷︸
<λ
(x− y)tA(x− y)︸ ︷︷ ︸
≥0
+λbtx+ (1− λ)bty+
+ (λ+ (1− λ))c
≤ 1
2
ytAy + λ(x− y)tAy + 1
2
λ(x− y)tA(x− y) + λbtx+ (1− λ)bty+
+ (λ+ (1− λ))c
= λ(
1
2
xtAx+ btx+ c) + (1− λ)(1
2
ytAy + bty + c)
= λf(x) + (1− λ)f(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que f é convexa.
⇐ Queremos provar que se f(x) = 1
2
xtAx + btx + c é convexa então
A é semidefinida positiva. Por contradição, suponhamos que A não
seja semidefinida positiva. Logo, existe r ∈ Rn tal que rtAr < 0.
Considermos o conjunto S = {θr | θ ∈ R}.
Sejam x, y ∈ S (x 6= y). Logo, existem θx, θy ∈ R tais que x = θxr e
y = θyr. Para λ ∈ [0, 1], temos que:
263
f(λx+ (1− λ)y) = f(y + λ(x− y))
=
1
2
(y + λ(x− y))tA(y + λ(x− y)) + bt(y + λ(x− y)) + c
=
1
2
ytAy + λ(x− y)tAy + 1
2
λ2︸︷︷︸
<λ
(θx − θy)2︸ ︷︷ ︸
>0
rtAr︸︷︷︸
<0
+λbtx+ (1− λ)bty+
+ (λ+ (1− λ))c
>
1
2
ytAy + λ(x− y)tAy + 1
2
λ(x− y)tA(x− y) + λbtx+ (1− λ)bty+
+ (λ+ (1− λ))c
= λ(
1
2
xtAx+ btx+ c) + (1− λ)(1
2
ytAy + bty + c)
= λf(x) + (1− λ)f(y)
Logo, f não é convexa em S, o que é uma contradição pois f é convexa.
Logo, A é semidefinida positiva.
7. Prove que a função ‖x‖2 =
√
x21 + . . .+ x
2
n é convexa.
Provemos que g(x) = ‖x‖2 é convexa. Sejam x, y ∈ S (conjunto con-
vexo que é o domínio de g) e λ ∈ [0, 1]. Temos que:
g(λx+ (1− λ)y) = ‖λx+ (1− λ)y‖2
≤ ‖λx‖2 + ‖(1− λ)y‖2 (desig. triang)
= λ ‖x‖2 + (1− λ) ‖y‖2 (‖.‖2 é norma e λ, 1− λ ∈ R+)
= λg(x) + (1− λ)g(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que g é convexa.
8. Prove que a soma e o máximo de duas funções convexas são funções
convexas.
Seja f(x) = max{g(x), h(x)}, onde g e h são funções convexas. Sejam
x, y ∈ S (conjunto convexo que é o domínio de g e h) e λ ∈ [0, 1].
Temos que:
264
f(λx+ (1− λ)y) = max{g(λx+ (1− λ)y), h(λx+ (1− λ)y)}
≤ max{λg(x) + (1− λ)g(y), λh(x) + (1− λ)h(y)}
(g, h são convexas)
≤ max{λg(x), λh(x)}+ max{(1− λ)g(y), (1− λ)h(y)}
= λmax{g(x), h(x)}+ (1− λ) max{g(y), h(y)}
= λf(x)+ (1− λ)f(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que f é convexa.
Finalmente, seja p(x) = g(x) + h(x), onde g e h são funções convexas.
Sejam x, y ∈ S (conjunto convexo que é o domínio de g e h) e λ ∈ [0, 1].
Temos que:
p(λx+ (1− λ)y) = g(λx+ (1− λ)y) + h(λx+ (1− λ)y)
≤ λg(x) + (1− λ)g(y) + λh(x) + (1− λ)h(y) (g, h convexas)
= λ(g(x) + h(x)) + (1− λ)(g(y) + h(y))
= λp(x) + (1− λ)p(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que p é convexa.
265
Exercícios do livro Elementos de Programação Não-linear
Capítulo 1 - Revisão de Álgebra Linear e Cálculo
Capítulo 2 - Condições de otimalidade para minimização sem restrições
Capítulo 3 - Convexidade
Capítulo 4 - Modelo de algoritmo com buscas direcionais
Capítulo 5 - Ordem de convergência
Capítulo 6 - Métodos clássicos de descida
Capítulo 7 - Minimização com restrições lineares de igualdade
Capítulo 8 - Algoritmos para restrições lineares de igualdade
Capítulo 9 - Minimização com restrições lineares de desigualdade
Capítulo 10 - Método de restrições ativas
Capítulo 11 - Minimização com restrições lineares de igualdade e desigualdade
Capítulo 12 - Minimização com restrições não-lineares de igualdade
Capítulo 13 - Minimização com restrições não-lineares de igualdade e desigualdade
Capítulo 14 - Algoritmos para restrições não-lineares
Exercícios dados em aula
Convexidade