exerciciosAna

FURG

Luana Meinerz
em 07/03/2018
Conteúdos escolhidos para você

33 pág.
Equações Diferenciais Ordinárias

ENAP
Perguntas dessa disciplina

pesquisa operacional (questao discursiva) O(A) Em branco 1 Questão 1 caminha pelos vértices da região viável de respostas até encontrar uma solu...

UNISANTA
O(A) caminha pelos vértices da região viável de respostas até encontrar uma solução que não possua soluções vizinhas melhores que ela, enquanto que...

UNISANTA
O(A) Em branco 1 Questão 1 caminha pelos vértices da região viável de respostas até encontrar uma solução que não possua soluções vizinhas melho...

UNISANTA
“As funções são pequenos códigos ou algoritmos que retornam valores específicos e podem ser usadas por outros algoritmos. Têm como vantagem o fato de

vDentro da qualidade verificamos que é importante delimitar as faixas de aceitação de qualquer processo produtivo, uma vez que sempre, em algum nível,

Material
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Cadastre-se ou realize login
Ao continuar, você aceita os Termos de Uso e Política de Privacidade
Conteúdos escolhidos para você

33 pág.
Matemática para Ensino Superior MA11 AtividadesGabarito 2013

855 pág.
Direitos Autorais e Responsabilidades

33 pág.
Matemática Discreta Aula 04

8 pág.
Equações Diferenciais Ordinárias

ENAP
Perguntas dessa disciplina

pesquisa operacional (questao discursiva) O(A) Em branco 1 Questão 1 caminha pelos vértices da região viável de respostas até encontrar uma solu...

UNISANTA
O(A) caminha pelos vértices da região viável de respostas até encontrar uma solução que não possua soluções vizinhas melhores que ela, enquanto que...

UNISANTA
O(A) Em branco 1 Questão 1 caminha pelos vértices da região viável de respostas até encontrar uma solução que não possua soluções vizinhas melho...

UNISANTA
“As funções são pequenos códigos ou algoritmos que retornam valores específicos e podem ser usadas por outros algoritmos. Têm como vantagem o fato de

vDentro da qualidade verificamos que é importante delimitar as faixas de aceitação de qualquer processo produtivo, uma vez que sempre, em algum nível,

Prévia do material em texto
Exercícios da disciplina MAP5747
Otimização não linear
Pedro Faria
18 de janeiro de 2016
Sumário
1 Exercícios do livro Elementos de Programação Não-linear 2
1.1 Capítulo 1 - Revisão de Álgebra Linear e Cálculo . . . . . . . 2
1.2 Capítulo 2 - Condições de otimalidade para minimização sem
restrições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3 Capítulo 3 - Convexidade . . . . . . . . . . . . . . . . . . . . . 39
1.4 Capítulo 4 - Modelo de algoritmo com buscas direcionais . . . 42
1.5 Capítulo 5 - Ordem de convergência . . . . . . . . . . . . . . . 57
1.6 Capítulo 6 - Métodos clássicos de descida . . . . . . . . . . . . 58
1.7 Capítulo 7 - Minimização com restrições lineares de igualdade 97
1.8 Capítulo 8 - Algoritmos para restrições lineares de igualdade . 116
1.9 Capítulo 9 - Minimização com restrições lineares de desigualdade139
1.10 Capítulo 10 - Método de restrições ativas . . . . . . . . . . . . 162
1.11 Capítulo 11 - Minimização com restrições lineares de igualdade
e desigualdade . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
1.12 Capítulo 12 - Minimização com restrições não-lineares de igual-
dade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
1.13 Capítulo 13 - Minimização com restrições não-lineares de igual-
dade e desigualdade . . . . . . . . . . . . . . . . . . . . . . . . 201
1.14 Capítulo 14 - Algoritmos para restrições não-lineares . . . . . 230
2 Exercícios dados em aula 260
2.1 Convexidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
1
1 Exercícios do livro Elementos de Programa-
ção Não-linear
1.1 Capítulo 1 - Revisão de Álgebra Linear e Cálculo
1.1 Sejam A ∈ Rn×n e x ∈ Rn. Quais das seguintes aﬁrmações são verda-
deiras? Prove ou dê um contraexemplo:
(a) Existe x∗ 6= 0 tal que Ax∗ = 0 se det(A) = 0.
A aﬁrmação é verdadeira. Suponhamos que det(A) = 0. Logo,
A é equivalente a uma matriz A′ (A ∼ A′) que possui uma linha
de zeros (A pode ser transformada em A′ por uma sequência de
operações elementares sobre as linhas de A). Como operações ele-
mentares sobre um sistema não alteram seu conjunto de soluções,
temos que A′x = 0. Como uma das linhas de A′ é nula, então o
sistema A′x = 0 (cujas soluções são as mesmas de Ax = 0) tem
menos equações que variáveis, o que signiﬁca que existe pelo me-
nos uma variável xi livre (isto é, que pode assumir qualquer valor
real - em particular, um valor não nulo). Logo, existe x∗ 6= 0 tal
que A′x∗ = 0 e, portanto, Ax∗ = 0.
(b) Existe x∗ 6= 0 tal que Ax∗ = 0 somente se det(A) = 0.
A aﬁrmação é verdadeira; provemos a contrapositiva. Suponha-
mos det(A) 6= 0. Logo, A é inversível e de Ax∗ = 0 segue
A−1A︸ ︷︷ ︸
I
x∗ = A−10 e portanto x∗ = 0.
(c) Existe x∗ 6= 0 tal que Ax∗ = 0 se e somente se det(A) = 0.
A aﬁrmação é verdadeira, pois os itens (a) e (b) são verdadeiros
(e o item (c) é apenas a conjunção das aﬁrmações de (a) e (b)).
1.2 Seja A ∈ Rm×n, m ≥ n e posto(A)= n. Prove que AtA é não singular.
Pelo exercício 1.1, temos que AtA é não singular se e somente x = 0
for a única solução de AtAx = 0.Temos que
AtAx = 0
xtAtAx = xt0
(Ax)tAx = 0
‖Ax‖22 = 0
2
Como ‖x‖2 = 0 ⇐⇒ x = 0, segue que Ax = 0. Como Ax pode ser
vista como uma combinação linear das n colunas de A em que cada
coeﬁciente é um componente de x, segue que x = 0 (pois as n colunas
de A são linearmente independentes, já que m ≥ n e posto(A)= n).
Logo, AtA é não singular.
1.3 Seja A ∈ Rm×n, m ≤ n e posto(A)= k. Deﬁnimos os subespaços
Nu(A) = {x ∈ Rn | Ax = 0} e Im(A) = {y ∈ Rm | ∃x ∈ Rn | y =
Ax}. Prove que:
(a) Nu(A) ⊥ Im(At).
Sejam u ∈ Nu(A), y ∈ Im(At). Como y ∈ Im(At),∃x ∈ Rm tal
que y = Atx. Temos que uty = utAtx = (Au)tx =︸︷︷︸
u∈Nu(a)
0tx = 0.
Logo, u e y são ortogonais e, portanto, Nu(A) ⊥ Im(At).
(b) dim(Nu(A)) = n− k.
Seja R uma matriz escalonada tal que R ∼ A (R pode ser obtida a
partir de A via operações elementares sobre as linhas de A). Como
operações elementares sobre as linhas de A não alteram seu espaço
linha, temos que o posto de A (dimensão do espaço linha de A) é
igual ao número de linhas não nulas de R (logo, R tem k linhas
não nulas). Ainda, como dim(Nu(A)) é o número de variáveis
livres de Ax = 0 (que, por sua vez, é o número de linhas nulas
de R, pois operações elementares também não alteram o espaço
nulo Nu(A)), temos que dim(Nu(A)) = n − k (número de total
de variáveis menos o número de linhas não nulas de R).
(c) Rn = Nu(A)⊕ Im(At).
Primeiramente, seja v ∈ Nu(A) ∩ Im(At). Provemos que v = 0
(i.e., provemos que a soma Nu(A) + Im(At) é direta). Pelo item
(a), temos que vtv = 0 = ‖v‖22. Como ‖v‖2 = 0 ⇐⇒ v = 0,
segue que v = 0.
O espaço Im(At) é gerado pelas colunas de At, que são as linhas
de A. Logo, dim(Im(At)) = posto(A) = k.
Como Nu(A)∩Im(At) = {0}, segue que dim(Nu(A)+Im(At)) =
dim(Nu(A))+dim(Im(At)) = (n−k)+k = n = dim(Rn). Ainda,
como Nu(A), Im(At) ∈ Rn, então o espaço Nu(A) + Im(At) está
contido em Rn. Logo, Rn = Nu(A)⊕ Im(At).
1.4 Considere Ax = b com A ∈ R(n−1)×n, b ∈ Rn−1 e x ∈ Rn, correspon-
dendo a n− 1 hiperplanos �linearmente independentes�. A intersecção
3
desses hiperplanos determina uma reta em Rn. Podemos representar
essa reta na forma y = x + λd, com λ ∈ R e x, d ∈ Rn. Discuta como
escolher x e d.
Como o número de equações do sistema Ax = b é n − 1 e o número
de incógnitas é n, então existe uma variável de x que é livre (e que
pode assumir qualquer valore real). Fixando então um valor para essa
variável livre (pode ser descoberta via escalonamento do sistema), po-
demos resolver o sistema (n− 1)× (n− 1) restante para encontrar uma
solução x0. Fazendo o mesmo procedimento para um outro valor da
variável livre, podemos encontrar uma solução x1. Esses dois pontos
já são suﬁcientes para encontrar a reta desejada, que é deﬁnida por
y = x0 + λ(x1 − x0) (isto é escolhemos x = x0 e d = x1 − x0).
1.5 Encontre os autovalores e autovetores da matriz A = uut, onde u ∈ Rn.
Como cada linha de A = uut é um múltiplo de ut, segue que posto(A)
= 1. Logo (pelo exercício 1.3)b)), dim(Nu(A)) = n−posto(A) = n−1.
Como Nu(A) = {x ∈ Rn | Ax = 0}, então a multiplicidade de λ = 0
como autovalor (i.e., a multiplicidade de λ = 0 como raiz do polinômio
característico p(λ) = det(A−λI)) é n−1 (cujos autovetores associados
v são as soluções não nulas de Av = 0 ).
Como o traço de uma matriz é soma de seus autovalores, temos que o
último autovalor restante é λ = tr(A) = tr(uut) = utu. Resolvendo a
equação
Av = λv
u( utv︸︷︷︸
∈R
) = ( utu︸︷︷︸
∈R
)v
utvu = utuv
, temos que v = u. Logo, u é autovetor com autovalor associado utu.
1.6 Prove que os autovetores de uma matriz associados a autovalores dis-
tintos são linearmente independentes e que se a matriz é simétrica eles
são ortogonais.
Sejam λ1, . . . , λr r autovalores distintos de uma matriz A, associados
respectivamente aos autovetores v1, . . . , vr (i.e., Avk = λkvk para k =
1, . . . , r). A prova segue por indução em r.
4
Caso base: para r = 1, como v1 6= 0 (por ser autovetor) temos que
c1v1 = 0 ⇒ c1 = 0. Logo, {v1} é um conjunto de autovetores linear-
mente independentes.
Hipótese de indução: {v1, . . . , vr−1} é um conjunto de autovetores line-
armente independentes.
Passo de indução: seja r ≥ 2. Consideremos a combinação linear
c1v1 + . . . + crvr = 0. Multiplicando os dois lados da combinação por
A à esquerda, como Avi = λivi obtemos:
c1λ1v1 + . . .+ crλrvr = 0
Multiplicando os dois lados da combinação por λr, obtemos:
c1λrv1 + . . .+ crλrvr = 0
Subtraindo a última equação da antepenúltima, obtemos:
c1(λ1 − λr)v1 + . . .+ cr−1(λr−1 − λr)vr−1 = 0
Pela hipótese de indução, como {v1, . . . , vr−1} são linearmente indepen-
dentes então ci(λi − λr) = 0 para i = 1, . . . , r − 1. Como (λi − λr) 6= 0
(autovalores são diferentes), segue c1 = . . . =cr−1 = 0. Logo, da pri-
meira combinação linear temos então que crvr = 0 e, como vr 6= 0
(por ser autovetor), temos cr = 0. Logo, {v1, . . . , vr} é um conjunto
linearmente independente.
Suponhamos agora que A seja simétrica. Temos que:
vt1(Av2) = v
t
1(λ2v2) = λ2(v
t
1v2)
Ainda,
(vt1A)v2 = (v
t
1A
t)v2 = (Av1)
tv2 = (λ1v1)
tv2 = λ1(v
t
1v2)
Das duas últimas equações, segue que:
λ1(v
t
1v2) = λ2(v
t
1v2)
(λ1 − λ2)(vt1v2) = 0
(vt1v2) = 0 pois λ1 6= λ2
5
Logo, os autovetores são ortogonais.
1.7 Prove que os autovalores de uma matriz simétrica são positivos se e
somente se a matriz é deﬁnida positiva.
⇒ Seja A uma matriz simétrica com autovalores positivos λ1, . . . , λn.
Logo A admite a decomposição A = QΛQt, onde Q é uma matriz
ortogonal (i.e.,QQt = I) e Λ é uma matriz diagonal com os autovalores
de A. Deﬁnamos
√
Λ a matriz diagonal que contém as raízes quadradas
dos autovalores de A (tal que Λ =
√
Λ
√
Λ )
Seja x 6= 0. Temos então que xtAx = xtQΛQtx = (√ΛQtx)t(√ΛQtx) =∥∥∥√ΛQtx∥∥∥2
2
. Como x 6= 0 e √ΛQt é não singular (sua inversa é Q√Λ−1,
onde
√
Λ
−1
é a matriz diagonal com os inversos das raízes quadradas
dos autovalores de A), temos que
√
ΛQtx 6= 0. Ainda, como ‖.‖2 é uma
norma temos então que xtAx =
∥∥∥√ΛQtx∥∥∥2
2
> 0. Logo, A é deﬁnida
positiva.
⇐ Seja A uma matriz simétrica deﬁnida positiva. Seja v 6= 0 um
autovetor de A, com autovalor associado λ. Temos que:
Av = λv
vtAv = vtλv (multiplicando à esquerda por vt)
vtAv︸︷︷︸
>0
= vtv︸︷︷︸
>0
λ
Como vtAv > 0 (pois v 6= 0 e A é positiva deﬁnida) e vtv > 0 (pois
v 6= 0 e vtv = ‖v‖22), segue que λ > 0. Logo, todos os autovalores de A
são positivos.
1.8 Prove que se λ é um autovalor de uma matriz A não-singular, então
1/λ é um autovalor de A−1.
Seja λ um autovalor de uma matriz A não-singular, com autovetor
associado v. Temos que:
6
Av = λv
v = A−1λv (multiplicando à esquerda por A−1)
v = (A−1v)λ
v
1
λ
= A−1v
Logo, 1/λ é um autovalor de A−1, com autovetor associado v.
1.9 Prove que A ∈ Rn×n é singular se e somente se 0 é um autovalor.
⇒ Seja A ∈ Rn×n singular. Logo, existe v 6= 0 tal que Av = 0 = 0v.
Logo, λ = 0 é um autovalor de A, com autovetor associado v.
⇐ Seja 0 um autovalor de A, com autovetor associado v. Logo, Av = 0
. Como v 6= 0 (pois v é autovetor de A), Nu(A) é não trivial. Logo, A
é singular.
1.10 Suponha que limk→∞ xk = α. Prove que se α > β, então existe M > 0
tal que para qualquer k ≥M se veriﬁca que xk > β.
Como limk→∞ xk = α, então para todo � > 0 existe um natural k0 tal
que k > k0 ⇒ α− � < xk < α + �. Para k ≥ k0, temos então que
α− � < xk < α + �
β − � < α− � < xk < α + � (pois α > β)
β < α < xk + �
Como a última inequação vale para todo � > 0, temos então que, esco-
lhendo M = k0 + 1, para k ≥M temos xk ≥ α > β ⇒ xk > β.
1.11 Prove que se limk→∞ xk = α e para todo k ≥ 0, xk ≥ β então α ≥ β.
Trocando o sinal de ≥ por >, a aﬁrmação continua válida? Prove ou
dê um contraexemplo.
Por contradição, suponhamos α < β. Como limk→∞ xk = α, então para
todo � > 0 existe um natural k0 tal que k > k0 ⇒ α− � < xk < α + �.
Para k ≥ k0, temos então que
7
α− � < xk < α + �
xk < α + � < β + � (pois α < β)
xk − � < α < β
Como a última inequação vale para todo � > 0, temos então que, para
k > k0 temos x
k ≤ α < β ⇒ xk < β. Isso é uma contradição com o
fato de que, para todo k ≥ 0, xk ≥ β. Logo, α ≥ β.
Trocando agora o sinal de≥ por>, tentemos provar que, se limk→∞ xk =
α e para todo k > 0, xk > β então α > β. Novamente por contradição,
suponhamos α ≤ β. Como limk→∞ xk = α, então para todo � > 0
existe um natural k0 tal que k > k0 ⇒ α−� < xk < α+�. Para k ≥ k0,
temos então que
α− � < xk < α + �
xk < α + � ≤ β + � (pois α ≤ β)
xk − � < α ≤ β
Como a última inequação vale para todo � > 0, temos então que, para
k > k0 temos x
k ≤ α ≤ β ⇒ xk ≤ β. Isso é uma contradição com o
fato de que, para todo k ≥ 0, xk > β. Logo, α > β (e, portanto, a
aﬁrmação continua válida se trocarmos ≥ por >).
1.12 Se {xk} é uma sequência convergente, então essa sequência é limitada?
A recíproca é verdadeira?
Sim (para a primeira pergunta). Seja xk uma sequência convergente,
com limk→∞ xk = L. Logo, para todo � > 0 existe um natural k0 tal
que k > k0 ⇒ L− � < xk < L+ �. Em particular, para � = 1 e k > k0
temos que:
∣∣xk − L∣∣ < 1∣∣xk∣∣− |L| < ∣∣xk − L∣∣ < 1 (pela desig. triang |u| − |v| ≤ |u− v|)∣∣xk∣∣ < 1 + |L|
8
Seja M = max{|x1| , . . . , ∣∣xk0∣∣ , 1 + |L|}. Da deﬁnição de M e da ine-
quação anterior segue que
∣∣xk∣∣ ≤ M para todo k natural, e portanto
{xk} é limitada.
A recíproca não é verdadeira, pois para xk = (−1)k, temos que {xk}
é limitada (pois
∣∣xk∣∣ ≤ 1 para todo k natural) mas não é convergente
(pois para todo k ≥ 1 natural temos ∣∣xk − xk−1∣∣ = 2).
1.13 É possível ter uma sequência convergente tal que x2k > 0 e x2k+1 < 0
para todo k ?
Sim. Considerando a sequência xk = (−1)k 1
k
, temos que x2k = 1
k
> 0 e
x2k+1 = − 1
k
< 0 para todo k > 0 e limk→∞ xk = 0 (para k ∈ Z, basta
considerar a sequência xk = (−1)|k| 1|k|).
1.14 Prove que as funções abaixo são normas:
(a) ‖.‖∞ : Rn → R, ‖x‖∞ = max1≤i≤n |xi| .
Sejam x, y ∈ Rn e α ∈ R.
Temos que :
‖x‖∞ = 0 ⇐⇒
max
1≤i≤n
|xi| = 0 ⇐⇒
|xi| ≤ 0 ∀i ⇐⇒︸ ︷︷ ︸
|xi|≥0
xi = 0 ∀i ⇐⇒
x = 0
Ainda, ‖αx‖∞ = max1≤i≤n |αxi| = |α|max1≤i≤n |xi| = |α| ‖x‖∞.
Por ﬁm,
‖x+ z‖∞ = max1≤i≤n |xi + zi|
≤ max
1≤i≤n
|xi|+ max
1≤i≤n
|zi| (desig. triang)
= ‖x‖∞ + ‖z‖∞
Logo, ‖.‖∞ é uma norma.
9
(b) ‖.‖1 : C(a, b)→ R, ‖f‖1 =
∫ b
a
|f(x)| dx. (C(a, b) é o conjunto das
funções contínuas [a, b]→ R) .
Sejam f, g ∈ C(a, b) e α ∈ R.
Temos que :
‖f‖1 = 0 ⇐⇒∫ b
a
|f(x)| dx = 0 ⇐⇒
|f | = 0 ⇐⇒ (pois |f(x)| ≥ 0)
f = 0 (pois |.| é uma norma em R)
Ainda, ‖αf‖1 =
∫ b
a
|αf(x)| dx = |α| ∫ b
a
|f(x)| dx = |α| ‖f‖1.
Por ﬁm,
‖f + g‖1 =
∫ b
a
|f(x) + g(x)| dx
≤
∫ b
a
|f(x)| dx+
∫ b
a
|g(x)| dx (desig. triang.)
= ‖f‖1 + ‖g‖1
Logo, ‖.‖1 é uma norma.
1.15 Considere as funções f : Rm → Rp e g : Rn → Rm com jacobianos
Jf ∈ Rp×m e Jg ∈ Rm×n , respectivamente. Encontre o jacobiano da
função composta h : Rn → Rp, dada por h(x) = f(g(x)).
Sejam Jfij e Jgij os elementos das posições i, j dos jacobianos de f e g,
respectivamente. Pela deﬁnição de jacobiano de h e deﬁnindo y = g(x),
temos que:
10
Jhij(x) =
∂hi
∂xj
(x)
=
∂fi
∂xj
(g(x))
=
m∑
k=1
∂fi
∂yk
(g(x))
∂yk
∂xj
(x) (pela regra da cadeia)
=
m∑
k=1
Jfik(g(x))Jgkj(x)
Logo, Jh(x) = Jf (g(x))Jg(x).
1.16 Calcule o gradiente e o hessiano das funções f : Rn → R abaixo:
Temos que o vetor gradiente (∇f) e a matriz hessiana (H(f) ou ∇2f)
são deﬁnidos por:
∇f(x) =
(
∂f
∂x1
(x), . . . ,
∂f
∂xn
(x)
)t
Hi,j(f(x)) =
∂2f(x)
∂xi∂xj
(a) f(x) = atx =
∑n
i=1 aixi.
∂f
∂xi
= ai ⇒ ∇f = a
Hi,j(f(x)) =
∂2f(x)
∂xi∂xj
= 0⇒ H(f) = 0
(b) f(x) = 1
2
xtAx + btx + c = 1
2
∑n
i=1
∑n
j=1Aijxixj +
∑n
i=1 bixi + c,
onde A ∈ Rn×n, b ∈ Rn, c ∈ R.
11
∂f
∂xk
=
∂
∂xk
[
1
2
n∑
i=1
n∑
j=1
Aijxixj +
n∑
i=1
bixi + c
]
= bk +
1
2
∂
∂xk
[∑
i 6=k
∑
j 6=k
Aijxixj +
∑
i 6=k
Aikxixk +
∑
j 6=k
Akjxkxj + Akkx
2
k
]
= bk +
1
2
∑
i 6=k
Aikxi +
1
2
∑
j 6=k
Akjxj + Akkxk
= bk +
1
2
n∑
i=1
Aikxi +
1
2
n∑
j=1
Akjxj
Logo, ∇f = 1
2
(A+ At)x+ b.
Ainda,
Hk,l(f(x)) =
∂2f(x)
∂xk∂xl
=
∂
∂xk
[
∂f(x)
∂xl
]
=
∂
∂xk
[
bl +
1
2
n∑
i=1
Ailxi +
1
2
n∑
j=1
Aljxj
]
=
1
2
(Akl + Alk)
Logo, H(f) = 1
2
(A+ At) .
(c) f(x) = gt(x)g(x) = ‖g(x)‖22 =
∑m
i=1 gi(x)
2
, onde g : Rn → Rm
∂f
∂xj
=
m∑
i=1
∂
∂xj
gi(x)
2
=
m∑
i=1
2gi(x)
∂
∂xj
gi(x)Logo, ∇f = 2∑mi=1 gi(x)∇gi(x)
12
Ainda,
Hj,k(f(x)) =
∂2f(x)
∂xj∂xk
=
∂
∂xj
[
∂f(x)
∂xk
]
=
∂
∂xj
[
m∑
i=1
2gi(x)
∂
∂xk
gi(x)
]
=
m∑
i=1
2
∂
∂xj
[
gi(x)
∂
∂xk
gi(x)
]
=
m∑
i=1
2
[
gi(x)
∂
∂xj∂xk
gi(x) +
∂
∂xj
gi(x)
∂
∂xk
gi(x)
]
Logo, H(f) = 2
∑m
i=1 giH(gi) + 2
∑m
i=1∇gi∇gti .
1.17 Sejam A ∈ Rm×n, b ∈ Rm. Para x ∈ Rn, deﬁnimos q(x) = f(Ax + b)
com f : Rm → R. Calcule o gradiente e o hessiano da função q.
Temos que q(x) = f(y), onde y = Ax + b e yi = bi +
∑n
j=1Aijxi.
Portanto,
∂q
∂xk
=
m∑
i=1
∂f
∂yi
∂yi
∂xk
=
m∑
i=1
∂f
∂yi
∂
∂xk
[
bi +
n∑
j=1
Aijxi
]
=
∂f
∂yk
n∑
j=1
Akj
Logo, (∇q)k = ∂f∂yk
∑n
j=1Akj ⇒ ∇q = (∇f)t(A× 1), onde 1 ∈ {1}n×1
13
Ainda,
Hi,k(q(x)) =
∂2q(x)
∂xi∂xk
=
∂
∂xi
[
∂q(x)
∂xk
]
=
∂
∂xi
[
∂f
∂yk
n∑
j=1
Akj
]
= 0
Logo, H(q) = 0 .
1.18 Desenhe as curvas de nível das seguintes quadráticas:
(a) f(x, y) = x2 − y2 − x+ y − 1. Como
x2 − y2 − x+ y − 1 = z(
x− 1
2
)2
−
(
y − 1
2
)2
= z + 1
Temos que cada curva de nível é uma hipérbole de centro (1
2
, 1
2
)
(f é um paraboloide hiperbólico).
Figura 1: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
14
(b) f(x, y) = x2 + y2 + 2xy.
Como
x2 + y2 + 2xy = z
(x+ y)2 = z (logo, z ≥ 0)
x+ y = ±√z
y = −x±√z
Temos que cada valor de z determina duas curvas de nível que são
retas de coeﬁciente angular igual a -1 (f é um cilindro parabólico).
Figura 2: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
(c) f(x, y) = x2 + y2 − xy.
Como
x2 + y2 − xy = z(
x− y
2
)2
+
y2
4
3
= z
Temos que cada curva de nível é uma elipse de centro (y
2
, 0) (f é
um paraboloide elíptico).
15
Figura 3: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
(d) f(x, y) = xy.
Considerando a equação Ax2 +Bxy+Cy2 +Dx+Ey+F = 0 que
deﬁne as quádricas, temos que a curva de nível xy − z = 0 é uma
hipérbole pois B2 = 12 > 0 = 4∗0∗0 = 4AC (f é um paraboloide
hiperbólico).
Figura 4: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
1.19 Escreva a expansão em série de Taylor em torno do ponto x0 = 0 para
as seguintes funções:
Para uma função f : R→ R ∈ C∞, sua série de Taylor em torno de x0
é dada por:
16
f(x) =
∞∑
n=0
f (n)(x0)
n!
(x−x0)n = f(x0)+f
′(x0)
1!
(x−x0)+f
′′(x0)
2!
(x−x0)2+· · ·
(a) f(x) = cos(x).
Para n ∈ N, temos que:
cos(n)(0) =

cos(0) = 1 se n ≡ 0 (mod 4)
− sin(0) = 0 se n ≡ 1 (mod 4)
− cos(0) = −1 se n ≡ 2 (mod 4)
sin(0) = 0 se n ≡ 3 (mod 4)
Logo, apenas os termos de potências pares são não nulos, e por-
tanto a série de Taylor de cos(x) em torno de x0 = 0 é dada por:
cos(x) =
∞∑
k=0
(−1)kx2k
(2k)!
(b) f(x) = ln(x+ 1).
Para n = 0, f (n)(0) = ln(0 + 1) = 0.
Para n ∈ N∗, temos que:
f (n)(x) = (−1)n−1(n− 1)!(x+ 1)−n = (−1)
n−1(n− 1)!
(x+ 1)n
Aplicando em x = 0, obtemos:
f (n)(0) = (−1)n−1(n− 1)!
Logo, a série de Taylor de ln(x + 1) em torno de x0 = 0 é dada
por:
ln(x+ 1) =
∞∑
n=1
(−1)n−1(n− 1)!
n!
xn
=
∞∑
n=1
(−1)n−1
n
xn
17
(c) f(x) = exp(x).
Para n ∈ N, temos que:
exp(n)(0) = exp(0) = 1
Logo, a série de Taylor de exp(x) em torno de x0 = 0 é dada por:
exp(x) =
∞∑
n=0
xn
n!
1.20 Discuta a geometria das curvas de nível de uma função quadrática
f(x) = 1
2
xtAx + btx + c, onde A ∈ R2×2 simétrica, b ∈ R2, c ∈ R, nos
seguintes casos.
Sejam A =
[
a1 a2
a2 a1
]
e
b =
[
b1
b2
]
.
Logo f pode ser reescrita como
f(x1, x2) =
1
2
(a1x
2
1 + 2a2x1x2 + a1x
2
2︸ ︷︷ ︸
xtAx
) + b1x1 + b2x2︸ ︷︷ ︸
btx
+c
, com x1, x2 ∈ R.
Usemos também o fato de que, para uma dada matriz A ∈ Rn×n, o
traço de A é a soma dos seus autovalores (contando multiplicidades),
e o determinante de A é o produto de seus autovalores. Para a matriz
A ∈ R2×2 em questão (com autovalores λ1, λ2 ∈ R), temos então que:{
2a1 = λ1 + λ2
a21 − a22 = λ1λ2
(a) A > 0 (i.e., A é deﬁnida positiva: xtAx > 0 para todo x 6= 0).
Seja z = 1
2
(a1x
2
1 + 2a2x1x2 + a1x
2
2) + b1x1 + b2x2 + c uma curva de
nível de f . Comparando-a com a equação que deﬁne as quádricas
Ax21 +Bx1x2 +Cx
2
2 +Dx1 +Ex2 + F = 0, ela será uma elipse se
B2 < 4AC, isto é, se
18
a22 < 4(
a1
2
)(
a1
2
)
a22 < a
2
1
Como uma matriz simétrica é positiva deﬁnida ⇐⇒ todos os
seus autovalores são positivos, temos então que:{
2a1 = λ1 + λ2 > 0
a21 − a22 = λ1λ2 > 0⇒ a22 < a21
Logo, como a22 < a
2
1, as curvas de nível de f são elipses.
(b) A ≥ 0 (i.e., A é semideﬁnida positiva: xtAx ≥ 0 para todo x ∈ Rn
) e existe x tal que Ax+ b = 0.
não resolvido
(c) A ≥ 0 e não existe x tal que Ax+ b = 0.
não resolvido
(d) A indeﬁnida (i.e., existem x, y ∈ Rn não nulos tais que xtAx >
0 > ytAy ) e não singular (i.e., det(A) 6= 0).
Seja z = 1
2
(a1x
2
1 + 2a2x1x2 + a1x
2
2) + b1x1 + b2x2 + c uma curva de
nível de f . Comparando-a com a equação que deﬁne as quádricas
Ax21 +Bx1x2 +Cx
2
2 +Dx1 +Ex2 +F = 0, ela será uma hipérbole
se B2 > 4AC, isto é, se
a22 > 4(
a1
2
)(
a1
2
)
a22 > a
2
1
Como uma matriz simétrica é indeﬁnida ⇐⇒ tem autovalores
positivos e negativos, temos então que:
a21 − a22 = λ1λ2 < 0⇒ a22 > a21
Logo, como a22 > a
2
1, as curvas de nível de f são hipérboles.
19
1.21 Considere a função f(x, y) = x cos(y) + y sin(x). Determine a aproxi-
mação linear de f em torno do ponto (0, 0). Determine um limitante
para o erro na região [−1, 1]× [−1, 1].
Sendo f de classe C2, temos que o polinômio de Taylor de ordem 1 de
f(x, y) em torno de (x0, y0) é dado por:
P1(x, y) = f(x0, y0) +
∂f
∂x
(x0, y0)(x− x0) + ∂f
∂y
(x0, y0)(y − y0)
, sendo o erro (resto) de Lagrange dado por:
E1(x, y) =
1
2
[
∂2f
∂x2
(x¯, y¯)(x− x0)2 + 2 ∂
2f
∂x∂y
(x¯, y¯)(x− x0)(y − y0) + ∂
2f
∂y2
(x¯, y¯)(y − y0)2
]
para algum (x¯, y¯) interno ao segmento de extremidades (x0, y0) e (x, y).
Logo, para a função em questão segue que:
P1(x, y) = f(x0, y0) +
∂f
∂x
(x0, y0)(x− x0) + ∂f
∂y
(x0, y0)(y − y0)
= 0 + (cos(0) + 0 cos(0))(x− 0) + (−0 sin(0) + sin(0))(y − 0)
= x
e, para algum (x¯, y¯) interno ao segmento de extremidades (0, 0) e (x, y),
temos que o erro é dado por:
E1(x, y) =
1
2
[
∂2f
∂x2
(x¯, y¯)(x− x0)2 + 2 ∂
2f
∂x∂y
(x¯, y¯)(x− x0)(y − y0) + ∂
2f
∂y2
(x¯, y¯)(y − y0)2
]
=
1
2
[
(−y¯ sin(x¯))(x− 0)2 + 2(cos(x¯)− sin(y¯))(x− 0)(y − 0) + (−x¯ cos(y¯))(y − 0)2]
=
1
2
[−x2y¯ sin(x¯) + 2xy(cos(x¯)− sin(y¯))− yx¯ cos(y¯)]
Para (x, y), (x¯, y¯) ∈ [−1, 1]× [−1, 1], temos que :
− sin(1) ≤ −x2y¯ sin(x¯) ≤ sin(1)
2(cos(1)− sin(1)) ≤ 2xy(cos(x¯)− sin(y¯)) ≤ 2(1 + sin(1))
−1 ≤ −yx¯ cos(y¯) ≤ − cos(1)
20
Somando as três inequações acima, obtemos que em [−1, 1]× [−1, 1] o
erro é limitado por:
2 cos(1)− 3 sin(1)− 1 ≤ 2E1(x, y) ≤ 2 + 2 sin(1)− cos(1)
|2E1(x, y)| ≤ 2 + 2 sin(1)− cos(1)
|E1(x, y)| ≤ 1 + 1 sin(1)− cos(1)
2
1.2 Capítulo 2 - Condições de otimalidade para mini-
mização sem restrições
2.1 Sejam g : R → R uma função estritamente crescente e f : Rn → R.
Prove que minimizar f(x) é equivalente a minimizar g(f(x)).
Como g é estritamente crescente, temos que x1 < x2 ⇐⇒ g(x1) <
g(x2) para todo (x1, x2) ∈ R2.
⇒ Sendo x∗ minimizador global de f , temos f(x∗) < f(x) para todo
x ∈ R. Como g é estritamente crescente, segue g(f(x∗)) < g(f(x))
para todo x ∈ R. Logo, x∗ minimiza g(f(x)).
⇐ Sendo x∗ minimizador global deg(f(x)), temos g(f(x∗)) < g(f(x))
para todo x ∈ R. Como g é estritamente crescente, g é injetora e por-
tanto admite uma inversa g−1. Logo, g−1(g(f(x∗))) < g−1(g(f(x)))⇒
f(x∗) < f(x) para todo x ∈ R. Logo, x∗ minimiza f(x).
2.2 Resolva o problema de minimizar ‖Ax− b‖, onde A ∈ Rm×n e b ∈ Rm.
Considere todos os casos possíveis e interprete geometricamente.
Como ‖.‖ ≥ 0, minimizar ‖Ax− b‖ equivale a minimizar ‖Ax− b‖2.
Logo,
‖Ax− b‖2 = (Ax− b)t(Ax− b)
= xtAtAx− 2btAx+ btb
Derivando em relação a x e igualando a 0, obtemos:
2AtAx− 2Atb = 0
AtAx = Atb
21
Se as colunas de A forem independentes (i.e., se A tiver posto n), então
AtA ∈ Rn×n será invertível e a solução é dada por x = (AtA)−1Atb.
Geometricamente, queremos escrever b como combinação linear das co-
lunas de A tal que ‖Ax− b‖ seja o menor possível, i.e., que queremos
que Ax∗ seja a projeção de b no espaço coluna de A. Equivalentemente,
queremos que Ax−b esteja no espaço ortogonal ao espaço coluna de A,
isto é, queremos que At(Ax− b) = 0⇒ AtAx = Atb (que é exatamente
a condição de otimalidade acima).
Se posto(A) = r < n, então existem matrizes Aˆ, Q e R tais que Aˆ
é obtida de A via permutação de colunas, Q ∈ Rm×m é ortogonal,
R =
[
R11 R12
0 0
]
∈ Rm×n , R11 ∈ Rr×r é não singular e triangular
superior, e Aˆ = QR.
Dado x ∈ Rn, seja xˆ o vetor obtido de x usando a mesma sequência
de permutações usada para transformar A em Aˆ. Logo, Aˆxˆ = Ax, e
portanto minimizar ‖Ax− b‖ equivale a minimizar
∥∥∥Aˆxˆ− b∥∥∥. Dái vem
que :
Aˆxˆ = b
QRxˆ = b
QtQRxˆ = Qtb
Rxˆ = Qtb (pois Q é ortogonal)[
R11 R12
0 0
] [
xˆ1
xˆ2
]
=
[
cˆ
d
]
O resíduo do sistema acima é dado por s =
[
cˆ−R11xˆ1 −R12xˆ2
d
]
e,
portanto, para minimizar ‖s‖, basta escolher xˆ2 ∈ Rn−r qualquer e
resolver o sistema R11xˆ1 = cˆ−R12xˆ2 ⇒ xˆ1 = R−111 (cˆ−R12xˆ2) (possível
pois R11 é não singular).
2.3 Considere os números reais a1 ≤ a2 ≤ · · · ≤ an. Encontre a solução
dos seguintes problemas:
(a) Minimizar
n∑
i=1
|x− ai|.
22
É imediato que a solução ótima x∗ está em [a1, an], já que a função
objetivo f apenas aumenta se x > an ou se x < a1. Logo, para
ak ≤ x ≤ x+ d ≤ ak + 1, temos:
f(x+ d) =
k∑
i=1
(x+ d− ai) +
n∑
i=k+1
(ai − (x+ d))
= dk +
k∑
i=1
(x− ai)− d(n− k) +
n∑
i=k+1
(ai − x)
= d(2k − n) +
k∑
i=1
(x− ai) +
n∑
i=k+1
(ai − x)
= d(2k − n) + f(x)
Logo, temos a �derivada� f(x+d)−f(x) = d(2k−n) =

< 0 se k < n/2
0 se k = n/2
> 0 se k > n/2
Portanto, para minimizar f(x) escolhemos k = n/2, isto é, f(x) é
minimizado pela mediana de a1, . . . , an.
(b) Minimizar max
i=1,...,n
|x− ai| .
parcialmente resolvido
Temos que o problema é equivalente ao problema linear :
minimizar f(x, y) = y
s.a. y ≥ x− ai ∀i = 1, . . . , n
y ≥ −x+ ai ∀i = 1, . . . , n
Essa formulação garante que y ≥ max
i=1,...,n
|x− ai| (para todo y viá-
vel), e a minimização de y fará com que a solução ótima y∗ seja
tal que y∗ = max
i=1,...,n
|x− ai|. Logo, se todos os ai forem diferentes,
apenas duas restrições estarão ativas na solução ótima.
Reescrevendo as restrições, temos:
23
minimizar f(x, y) = y
s.a. x− y ≤ ai ∀i = 1, . . . , n
−x− y ≤ −ai ∀i = 1, . . . , n
Logo, o problema é tal que:
minimizar f(x, y) = y
s.a. Ax ≤ b
Nesse caso, temos A =

1 −1
1 −1
.
.
.
.
.
.
−1 −1
−1 −1
 e b =

a1
.
.
.
an
−a1
.
.
.
−an

.
Pela observação anterior, sendo (x∗, y∗) a solução ótima, seja ai
tal que x∗ − y∗ = ai e −x∗ − y∗ = −ai. Portanto, a matriz
de coeﬁcientes das restrições ativas é AI =
[
1 −1
−1 −1
]
. Pela
condição de otimalidade de primeira ordem (teorema 9.1 da p. 69
do livro da Ana), então existe λ∗ ∈ R2− tal que:
∇f(x∗, y∗) = AtI(λ∗1, λ∗2)t
(0, 1)t =
[
1 −1
−1 −1
]
(λ∗1, λ
∗
2)
t
(0, 1)t = (λ∗1 − λ∗2,−λ∗1 − λ∗2)t
λ∗1 = λ
∗
2 = −
1
2
(c) Minimizar
n∑
i=1
|x− ai|2.
Temos que:
24
f ′(x) =
n∑
i=1
2(x− ai)
= 2
n∑
i=1
(x− ai)
= 2
n∑
i=1
x− 2
n∑
i=1
ai
= 2nx− 2
n∑
i=1
ai
Logo, os pontos estacionários x∗ são dados por:
f ′(x∗) = 0
2
n∑
i=1
(x∗ − ai) = 0
n∑
i=1
(x∗ − ai) = 0
nx∗ −
n∑
i=1
ai = 0
x∗ =
n∑
i=1
ai
n
Ainda, como
f ′′(x) = 2n
> 0 (para n > 0)
Temos então que x∗ =
n∑
i=1
ai
n
é o minimizador de f .
25
(d) Maximizar
n∏
i=1
|x− ai|.
Como lim
‖x‖→∞
f(x) = +∞, f não tem um maximizador global.
Porém, como f(x) ≥ 0 e f(ai) = 0 ∀i = 1, . . . , n, todo ai (i =
1, . . . , n) é minimizador global de f .
2.4 Obtenha expressões para as derivadas primeiras e segundas da função
de Rosenbrock f(x) = 100(x2−x21)2+(1−x1)2. Veriﬁque que x¯ = (1, 1)t
é um minimizador local. Prove que ∇2f(x¯) é singular se e somente se
x2 − x21 = 0.005.
As derivadas parciais são dadas por:
∂f
∂x1
= −400x1(x2 − x21)− 2(1− x1)
∂2f
∂x21
= −400x2 + 1200x21 + 2
∂f
∂x2
= 200(x2 − x21)
∂2f
∂x22
= 200
∂2f
∂x1∂x2
= −400x1
Logo,∇f(x) = (−400x1(x2−x21)−2(1−x1), 200(x2−x21))t e ∇2f(x) =[ −400x2 + 1200x21 + 2 −400x1
−400x1 200
]
.
Sendo x¯ = (1, 1)t, temos ∇f(x¯) = (0, 0)t e ∇2f(x¯) =
[
802 −400
−400 200
]
.
Utilizemos o fato de que uma matriz é deﬁnida positiva ⇐⇒ todos os
seus menores principais são positivos. Os menores principais de ∇2f(x¯)
(determinantes das submatrizes principais de ∇2f(x¯)) são ∆1 = 802 >
0, ∆1 = 200 > 0 e ∆2 = 802× 200− (−400×−400) = 400 > 0. Como
são todos positivos, ∇2f(x¯) é deﬁnida positiva.
Portanto, como ∇f(x¯) = (0, 0)t e ∇2f(x¯) é deﬁnida positiva, x¯ é um
minimizador local de f .
26
Além disso, temos que
det(∇2f(x)) = (−400x2 + 1200x21 + 2)× (200)− (−400x1)× (−400x1)
= 80000(x21 − x2) + 400
Portanto, ∇2f(x) é singular ⇐⇒ det(∇2f(x)) = 0 ⇐⇒ x21 − x2 =
−400/80000 = −0.005 ⇐⇒ x2 − x21 = 0.005
2.5 Encontre os pontos estacionários de f(x) = 2x31−3x21−6x1x2(x1−x2−
1). Quais desses pontos são minimizadores ou maximizadores, locais
ou globais?
As derivadas parciais são dadas por:
∂f
∂x1
= 6x21 − 6x1 − 12x1x2 + 6x22 + 6x2
∂2f
∂x21
= 12x1 − 6− 12x2
∂f
∂x2
= −6x21 + 12x1x2 + 6x1
∂2f
∂x22
= 12x1
∂2f
∂x1∂x2
= −12x1 + 12x2 + 6
Logo,∇f(x) = (6x21 − 6x1 − 12x1x2 + 6x22 + 6x2,−6x21 + 12x1x2 + 6x1)t
e ∇2f(x) =
[
12x1 − 6− 12x2 −12x1 + 12x2 + 6
−12x1 + 12x2 + 6 12x1
]
.
Os pontos estacionários são dados pelo sistema:{
6x21 − 6x1 − 12x1x2 + 6x22 + 6x2 = 0
−6x21 + 12x1x2 + 6x1 = 0
, e são x0 = (−1,−1), x1 = (0,−1), x2 = (0, 0) e x3 = (1, 0), com
f(x0) = 1, f(x1) = 0, f(x2) = 0, f(x3) = −1.
Temos então que
27
∇2f(x0) =
[ −6 6
6 −12
]
⇒ det(∇2f(x0)) = 36 > 0 e ∂
2f
∂x21
(x0) = −6 < 0
∇2f(x1) =
[
6 −6
−6 0
]
⇒ det(∇2f(x1)) = −36 < 0
∇2f(x2) =
[ −6 6
6 0
]
⇒ det(∇2f(x2)) = −36 < 0
∇2f(x3) =
[
6 −6
−6 12
]
⇒ det(∇2f(x3)) = 36 > 0 e ∂
2f
∂x21
(x3) = 6 > 0
Logo, pelo teste da derivada segunda, x0 = (−1,−1) é máximo local
(não global, pois f(0.5,−1.5) = 4 > 1 = f(x0)), x1 = (0,−1) e x2 =
(0, 0) são pontos de sela e x3 = (1, 0) é mínimo local (não global, pois
f(−1.5, 0.5) = −27 < −1 = f(x3)).
2.6 Seja f(x) = (x1 − x22)(x1 − 12x22). Veriﬁque que x¯ = (0, 0)t é um mi-
nimizador local de φ(λ) ≡ f(x¯ + λd) para todo d ∈ R2, mas x¯ não é
minimizador local de f .
As derivadas parciais de f são dadas por:
∂f
∂x1
= 2x1 − 3
2
x22
∂2f
∂x21
= 2
∂f
∂x2
= −3x1x2 + 2x32
∂2f
∂x22
= −3x1 + 6x22
∂2f
∂x1∂x2
= −3x2
Logo,∇f(x) = (2x1−32x22,−3x1x2+2x32)t e∇2f(x) =
[
2 −3x2
−3x2 −3x1 + 6x22
]
.
Temos então que
28
∇f(x¯) = (2× 0− 3
2
02,−3× 0× 0 + 2× 03)t = (0, 0)t
∇2f(x¯) =
[
2 0
0 0
]
⇒ ∆1 = 2 ≥ 0,∆1 = 0 ≥ 0,∆2 = 2× 0− (0× 0) = 0 ≥ 0
⇒ ∇2f(x¯) é semideﬁnidapositiva
Logo, como ∇f(x¯) = 0 e ∇2f(x¯) é semideﬁnida positiva, estão satis-
feitas as condições necessárias para que x¯ seja minimizador local de
f . Porém, x¯ não é minimizador local de f , pois para x1 =
2
3
x22 (com
x2 6= 0) temos f(x1, x2) = (−13x22)(16x22) < 0 = f(x¯) e (23x22, x2)
x2→0−−−→ x¯.
Ainda, temos que
φ(λ) = f(x¯+ λd)
= f((0, 0)t + λ(d1, d2)
t)
= f((λd1, λd2)
t)
= (λd1 − (λd2)2)(λd1 − 1
2
(λd2)
2)
=
1
2
λ4d42 −
3
2
λ3d1d
2
2 + λ
2d21
Dái vem que as derivadas de φ são dadas por:
dφ
dλ
= 2λ3d42 −
9
2
λ2d1d
2
2 + 2λd
2
1 ⇒
dφ
dλ
(0) = 0
d2φ
dλ2
= 6λ2d42 − 9λd1d22 + 2d21 ⇒
d2φ
dλ2
(0) = 2d21 > 0 se d1 6= 0
Logo, λ = 0 é um minimizador local de φ(λ) se d1 6= 0.
2.7 Prove que a função f(x) = (x2 − x21)2 + x51 tem um único ponto estaci-
onário que não é minimizador nem maximizador local.
As derivadas parciais de f são dadas por:
29
∂f
∂x1
= −4x1x2 + 4x31 + 5x41
∂2f
∂x21
= −4x2 + 12x21 + 20x31
∂f
∂x2
= 2x2 − 2x21
∂2f
∂x22
= 2
∂2f
∂x1∂x2
= −4x1
Logo,∇f(x) = (−4x1x2 + 4x31 + 5x41, 2x2 − 2x21)t e
∇2f(x) =
[ −4x2 + 12x21 + 20x31 −4x1
−4x1 2
]
.
Os pontos estacionários são dados pelo sistema:{
−4x1x2 + 4x31 + 5x41 = 0
2x2 − 2x21 = 0
⇒
{
x1(5x
3
1 + 4x
2
1 − 4x2) = 0
−2(x21 − x2) = 0
, cuja única solução é x0 = (0, 0)
t
.
Temos que x0 não é minimizador local de f , pois para x2 = x
2
1 (com
x1 < 0) temos f(x1, x2) = x
5
1 < 0 = f(x0) e (x1, x
2
1)
x1→0−−−−−→ x0.
Analogamente, temos que x0 não é maximizador local de f , pois para
x2 = x
2
1 (com x1 > 0) temos f(x1, x2) = x
5
1 > 0 = f(x0) e (x1, x
2
1)
x1→0+−−−−→
x0.
Logo, f tem um único ponto estacionário x0 = (0, 0)
t
que não é mini-
mizador nem maximizador local de f .
2.8 Encontre funções f : Rn → R, n ≥ 2, tais que ∇(x¯) = 0 e x¯ é:
(a) maximizador local, não global;
Como já visto no exercício 2.5 para a função f(x) = 2x31 − 3x21 −
6x1x2(x1− x2− 1), temos que x0 = (−1,−1) é máximo local (não
global, pois f(0.5,−1.5) = 4 > 1 = f(x0)), pois ∇f(x0) = 0,
det(∇2f(x0)) = 36 > 0 e ∂2f∂x21 (x0) = −6 < 0 .
30
(b) ponto de sela;
Como já visto no exercício 2.5 para a função f(x) = 2x31 − 3x21 −
6x1x2(x1 − x2 − 1), temos que x1 = (0,−1) e x2 = (0, 0) são
pontos de sela pois ∇f(x1) = ∇f(x2) = 0 e det(∇2f(x1)) =
det(∇2f(x2)) = −36 < 0.
(c) minimizador global.
Seja f(x, y) = 3x4 + 2y4. Temos que ∇f(x) = (12x3, 8y3)t,
∇f((0, 0)t) = (0, 0)t e (0, 0)t é minimizador global de f pois
f(x, y) ≥ 0 para todo (x, y) ∈ R2
2.9 Para aproximar uma função g no intervalo [0, 1] por um polinômio de
grau ≤ n, minimizamos a função critério: f(a) = ∫ 1
0
[g(x) − p(x)]2 dx,
onde p(x) = a0 + a1x + · · · + anxn. Encontre as equações a serem
satisfeitas pelos coeﬁcientes ótimos.
Temos que f(a) aumenta quando ‖a‖ aumenta e, como f é limitada
inferiormente por 0, f deve ter um mínimo. Como f é diferenciável
em função de a, então esse mínimo deve ocorrer quando ∇f(a) = 0.
Temos que:
∂f
∂ak
=
∂
∂ak
[∫ 1
0
[g(x)− p(x)]2 dx
]
=
∂
∂ak
[∫ 1
0
[g(x)− (a0 + · · ·+ ak−1xk−1 + akxk + ak+1xk+1 + · · ·+ anxn)]2 dx
]
= −2
∫ 1
0
[g(x)− (a0 + · · ·+ ak−1xk−1 + akxk + ak+1xk+1 + · · ·+ anxn)]xk dx
= −2
∫ 1
0
g(x)xk dx+ 2
n∑
i=0
ai
∫ 1
0
xk+i dx
= −2
∫ 1
0
g(x)xk dx+ 2
n∑
i=0
ai
[
xk+i+1
k + i+ 1
] ∣∣∣1
0
= −2
∫ 1
0
g(x)xk dx+ 2
n∑
i=0
ai
k + i+ 1
Logo, para cada k = 0, 1, . . . , n, as equações a serem satisfeitas pelos
coeﬁcientes ótimos são descritas pelo seguinte sistema:
31
∂f
∂ak
= 0
−2
∫ 1
0
g(x)xk dx+ 2
n∑
i=0
ai
k + i+ 1
= 0
∫ 1
0
g(x)xk dx =
n∑
i=0
ai
k + i+ 1
2.10 Considere o problema irrestrito minimizar f(x) = x21 − x1x2 + 2x22 −
2x1 + exp(x1 + x2).
(a) Escreva as condições necessárias de primeira ordem. São suﬁcien-
tes? Por quê?
As condições de primeira ordem são dadas por:
∂f
∂x1
= 2x1 − x2 − 2 + exp(x1 + x2) = 0
∂f
∂x2
= −x1 + 4x2 + exp(x1 + x2) = 0
Nesse caso, as condições de primeira ordem são suﬁcientes, pois
f(x, y) é convexa (por ser soma de funções convexas).
∂2f
∂x21
= 2 + exp(x1 + x2)
∂2f
∂x22
= 4 + exp(x1 + x2)
∂2f
∂x1∂x2
= −1 + exp(x1 + x2)
Logo, ∇2f(x) =
[
2 + exp(x1 + x2) −1 + exp(x1 + x2)
−1 + exp(x1 + x2) 4 + exp(x1 + x2)
]
.
Os menores principais de ∇2f(x) (determinantes das submatrizes
principais de ∇2f(x¯)) são ∆1 = 2 + exp(x1 + x2) ≥ 0, ∆1 =
32
4 + exp(x1 + x2) ≥ 0 e ∆2 = (2 + exp(x1 + x2)) × (4 + exp(x1 +
x2))− [(−1 + exp(x1 +x2))× (−1 + exp(x1 +x2))] ≥ (2 + exp(x1 +
x2))
2 − (−1 + exp(x1 + x2))2 ≥ 0. Como são todos não negativos,
∇2f(x¯) é semideﬁnida positiva.
Nesse caso, as condições de primeira ordem são suﬁcientes, pois
∇2f(x) é semideﬁnida positiva ∀x ∈ R2 (e portanto f é convexa,
o que faz a condição necessária de primeira ordem ser também
suﬁciente pois R2 é convexo ).
(b) O ponto x¯ = (0, 0)t é ótimo?
Não, pois
∂f
∂x1
(x¯) = −1 6= 0
∂f
∂x2
(x¯) = 1 6= 0
(c) Ache uma direção d ∈ R2 tal que ∇f(x¯)td < 0 .
Tomando d = (1,−1)t, temos ∇f(x¯)td = −1 × 1 + 1 × (−1) =
−2 < 0
(d) Minimize a função a partir de x¯ na direção obtida em (c).
Para λ = 0.25, temos que f(x¯ + λd) = f(0.25,−0.25) ≈ 0.75 <
1 = f(x¯)
2.11 Seja F : Rn → Rn com derivadas contínuas. Seja f : Rn → R dada
por f(x) = ‖F (x)‖2. Seja x¯ minimizador local de f tal que JF (x¯) é
não-singular. Prove que x¯ é solução do sistema F (x) = 0.
Seja F (x) = (F1(x), . . . , Fn(x))
t
, com Fi : R
n → R. Temos então que
f(x) = ‖F (x)‖22 =
n∑
i=1
Fi(x)
2
. Daí segue que:
(∇f(x))k = ∂f
∂xk
=
∂
∂xk
[
n∑
i=1
Fi(x)
2
]
= 2
n∑
i=1
Fi(x)
∂Fi
∂xk
(x)
= 2
n∑
i=1
Fi(x)(JF (x))ik
33
Logo, ∇tf(x) = 2F (x)tJF (x) ⇒ ∇f(x) = 2J tF (x)F (x). Se x∗ é mini-
mizador local de f temos ∇f(x∗) = 0 e portanto
2J tF (x
∗)F (x∗) = ∇f(x∗)
2J tF (x
∗)F (x∗) = 0
J tF (x
∗)F (x∗) = 0
Como JF (x
∗) é não-singular, então o sistema homogêneo J tF (x
∗)F (x∗) =
0 apenas admite a solução trivial F (x∗) = 0. Logo, x∗ é solução do sis-
tema F (x) = 0.
2.12 Considere f : R2 → R, f(x) = (x31 + x2)2 + 2(x2 − x1 − 4)4. Dado
um ponto x ∈ R2 e uma direção 0 6= d ∈ R2, construímos a função
g(λ) = f(x+ λd).
(a) Obtenha uma expressão explícita para g(λ)
g(λ) = f(x+ λd)
= f((x1, x2)
t + λ(d1, d2)
t)
= f((x1 + λd1, x2 + λd2)
t)
= ((x1 + λd1)
3 + (x2 + λd2))
2 + 2((x2 + λd2)− (x1 + λd1)− 4)4
(b) Para x = (0, 0)t e d = (1, 1)t, encontre o minimizador de g
Nesse caso, temos:
g(λ) = ((0 + λ)3 + (0 + λ))2 + 2((0 + λ)− (0 + λ)− 4)4
= (λ3 + λ)2 + 512
Dái vem que as derivadas de g são dadas por:
dg
dλ
= 2(1 + 3λ2)(λ+ λ3) = 0⇒ λ = 0
d2g
dλ2
= 2 + 24λ2 + 30λ4 ⇒ d
2g
dλ2
(0) = 2 > 0
Logo, λ = 0 é um minimizador local de g(λ). Esse minimizador
também é global pois, g(λ) = (λ3 + λ)2 + 512 ≥ 512 = g(0).
34
2.13 Considere a função f(x) = (x1 − 1)2x2. Considere os pontos de R2 da
forma xˆ = (1, x2)
t
.
(a) Analise as condições de otimalidade de primeira e segunda ordem
para esses pontos;
As derivadas parciais de f são dadas por:
∂f
∂x1
= 2x2(x1 − 1)
∂2f
∂x21
= 2x2
∂f
∂x2
= (x1 − 1)2
∂2f
∂x22
= 0
∂2f
∂x1∂x2
= 2(x1 − 1)
Logo,∇f(x) = (2x2(x1−1), (x1−1)2)t e∇2f(x) =
[
2x2 2(x1 − 1)
2(x1 − 1) 0
]
.
Assim, ∇f(xˆ) = (0, 0)t e∇2f(xˆ) =
[
2x2 0
0 0
]
, que é semideﬁnida
positiva ⇐⇒ x2 ≥ 0.
(b) O que se pode aﬁrmar sobre xˆ utilizando essas informações?
Logo, todos os pontos xˆ são estacionários, mas apenas os com x2 ≥
0 satisfazem a condição necessária para serem mínimos locais.
(c) Use a expressão da função para obter aﬁrmações mais conclusivas
sobre as características de xˆ.Temos que
f(xˆ) = (1− 1)2x2
= 0
Logo, os pontos xˆ estão na curva de nível f(x) = 0.
2.14 Sejam f(x) = 1
2
xtQx − btx, Q ∈ Rn×n simétrica deﬁnida positiva e
b ∈ Rn. Sejam x0, x1, . . . , xn ∈ Rn e deﬁnimos δj = xj − x0, γj =
35
∇f(xj) − ∇f(x0), j = 0, 1, . . . , n.Prove que se os vetores {δj}nj=1 são
linearmente independentes, então
x˜ = xn − [δ1 . . . δn].[γ1 . . . γn]−1.∇f(xn)
é minimizador global de f .
Pelo exercício 1.16)b), sabemos que ∇f(x) = Qx − b e ∇2f(x) = Q.
Como δj = xj − x0, então xj = δj + x0. Para todo j = 1, . . . , n, temos
que:
γj = ∇f(xj)−∇f(x0)
= Q(δj + x0)− b− [Qx0 − b]
= Qδj +���
��
Qx0 − b−�����[Qx0 − b]
= Qδj
Pela observação da página 39 do livro da Ana, como {δj}nj=1 são linear-
mente independentes então as n diferenças γj = ∇f(δj + x0)−∇f(x0)
(j = 1, . . . , n) determinam completamente Q e Q−1. Nesse caso, temos
então que:
([δ1 . . . δn].[γ1 . . . γn])−1 = ([δ1 . . . δn].[Qδ1 . . . Qδn])−1
= Q−1 (Q é invertível pois é simétrica deﬁnida positiva)
Daí vem que
x˜ = xn − [δ1 . . . δn].[γ1 . . . γn]−1.∇f(xn)
= xn −Q−1∇f(xn)
= xn −∇2f(xn)−1∇f(xn)
Portanto, x˜ é obtido a partir de xn via uma iteração do método de
Newton. Logo, x˜ é o minimizador global de f , pois o método de Newton
para funções quadráticas com hessiana deﬁnida positiva converge em
um passo para o minimizador global de f (pela proposição 6.1 da p. 35
do livro da Ana).
36
2.15 Deﬁnimos a norma de Frobenius de uma matriz A ∈ Rm×n como
‖A‖F =
(
m∑
i=1
n∑
j=1
a2ij
)1/2
. Dada uma matriz A ∈ Rn×n, encontre a matriz simétrica mais pró-
xima de A na norma de Frobenius, isto é, encontre a matriz B ∈ Rn×n,
simétrica tal que ‖A−B‖F é mínima.
Sejam A ∈ Rn×n, B ∈ Rn×n simétrica com elementos (variáveis) bij
(como B é simétrica, bij = bji). Deﬁnimos f(B) = f(b11, . . . , bnn) =
‖A−B‖F =
(
n∑
i=1
n∑
j=1
(aij − bij)2
)1/2
.
Temos que f(B) aumenta quando ‖B‖F aumenta e, como f é limitada
inferiormente por 0 (basta escolher B = A), f deve ter um mínimo.
Como f é diferenciável em função de B, então esse mínimo deve ocorrer
quando ∇f(B) = 0. Temos que:
∂f
∂bkl
=
∂
∂bkl
( n∑
i=1
n∑
j=1
(aij − bij)2
)1/2
=
1
2
(
n∑
i=1
n∑
j=1
(aij − bij)2
)−1/2
(−2(akl − bkl)− 2(alk − blk))
Se A for simétrica, temos que B = A minimiza f . Se A não for simé-
trica, temos ‖A−B‖F > 0 e portanto ∇f apenas será nulo quando o
seguinte sistema for satisfeito (deﬁnamos xkl = bkl = blk):{
−2(akl − bkl)− 2(alk − blk) = 0 ⇒
{
xkl = (akl + alk)/2
Logo, a matriz B simétrica que minimiza f é dada por B = 1
2
(A+At)
2.16 Seja f : R → R e suponha f (j)(a) = 0, j = 0, . . . , n − 1 e f (n)(a) 6= 0.
Sobre que condições o ponto x = a poderá ser um minimizador de f?
Baseado em sua resposta: f(x) = x13 tem um mínimo em x = 0 ? E
f(x) = x16 ?
O teste da derivada de ordem superior (https://en.wikipedia.org/
wiki/Higher-order_derivative_test) diz que:
Seja f : R → R função de classe Cn+1 no intervalo I ⊂ R, c ∈ I ,
n ≥ 1. Se f ′(c) = · · · = f (n)(c) = 0 e f (n+1)(c) 6= 0, então:
37
• se n é ímpar temos um extremante local em c, isto é:
1. f (n+1)(c) < 0⇒ c é um máximo local
2. f (n+1)(c) > 0⇒ c é um mínimo local
• se n é par temos um ponto de sela (local) em c, isto é:
1. f (n+1)(c) < 0 ⇒ c é um ponto de inﬂexão estritamente de-
crescente
2. f (n+1)(c) > 0 ⇒ c é um ponto de inﬂexão estritamente cres-
cente
Para f(x) = x13, temos f ′(0) = · · · = f (12)(0) = 0 e f (12+1)(0) =
13! > 0. Logo, como 12 é par e f (12+1)(0) > 0, segue que c = 0 é um
ponto de inﬂexão estritamente crescente.
Para f(x) = x16, temos f ′(0) = · · · = f (15)(0) = 0 e f (15+1)(0) =
15! > 0. Logo, como 15 é ímpar e f (15+1)(0) > 0, segue que c = 0 é um
ponto de mínimo local.
2.17 Se for possível determine a e b de modo que f(x) = x3 +ax2 + bx tenha
um máximo local em x = 0 e um mínimo local em x = 1.
Dái vem que as derivadas de f são dadas por:
f ′(x) = 3x2 + 2ax+ b
f ′′(x) = 6x+ 2a
Supondo que 0 e 1 sejam extremantes locais, temos o sistema:{
f ′(0) = 0
f ′(1) = 0
⇒
{
b = 0
a = −3/2
Como x = 0 é máximo local e x = 1 é mínimo local, também devemos
ter:{
f ′′(0) < 0
f ′′(1) > 0
⇒
{
2(−3/2) = −3 < 0
6 + 2(−3/2) = 3 > 0
Logo, para que x = 0 seja máximo local e x = 1 seja mínimo local, é
suﬁciente que a = −3/2 e b = 0.
38
1.3 Capítulo 3 - Convexidade
3.1 Prove que a intersecção de conjuntos convexos é convexa.
Sejam S, T ⊂ Rn convexos, e sejam x, y ∈ S ∩ T . Como S é convexo,
∀λ ∈ [0, 1] segue que λx + (1 − λ)y ∈ S. Analogamente, como T é
convexo, ∀λ ∈ [0, 1] segue que λx + (1 − λ)y ∈ T . Logo, todas as
combinações convexas de elementos de S ∩ T estão tanto em S quanto
em T , isto é, estão em S ∩ T . Portanto, S ∩ T é convexo.
3.2 Prove que S = {x ∈ Rn | ‖x‖ ≤ c, c > 0}, onde ‖.‖ é uma norma
qualquer em Rn, é um conjunto convexo.
Sejam x, y ∈ S e λ ∈ [0, 1]. Temos que:
‖λx+ (1− λ)y‖ ≤ ‖λx‖+ ‖(1− λ)y‖ (desig. triang)
= λ ‖x‖+ (1− λ) ‖y‖ (‖.‖ é norma e λ, 1− λ ∈ R+)
≤ λc+ (1− λ)c (x, y ∈ S)
= c
Logo, ‖λx+ (1− λ)y‖ ≤ c e portanto λx+ (1− λ)y ∈ S. Como x, y, λ
foram escolhidos arbitrariamente, segue que S é convexo.
3.3 Veriﬁque se as funções abaixo são convexas:
(a) f(x) = max{g(x), h(x)}, onde g e h são funções convexas;
Sejam x, y ∈ S (conjunto convexo que é o domínio de g e h) e
λ ∈ [0, 1]. Temos que:
f(λx+ (1− λ)y) = max{g(λx+ (1− λ)y), h(λx+ (1− λ)y)}
≤ max{λg(x) + (1− λ)g(y), λh(x) + (1− λ)h(y)}
(g, h são convexas)
≤ max{λg(x), λh(x)}+ max{(1− λ)g(y), (1− λ)h(y)}
= λmax{g(x), h(x)}+ (1− λ) max{g(y), h(y)}
= λf(x) + (1− λ)f(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que f é con-
vexa.
39
(b) t(x) =
∑n
i=1 x
2
i = ‖x‖22
Primeiramente, provemos que g(x) = ‖x‖2 é convexa. Sejam
x, y ∈ S (conjunto convexo que é o domínio de g) e λ ∈ [0, 1].
Temos que:
g(λx+ (1− λ)y) = ‖λx+ (1− λ)y‖2
≤ ‖λx‖2 + ‖(1− λ)y‖2 (desig. triang)
= λ ‖x‖2 + (1− λ) ‖y‖2 (‖.‖2 é norma e λ, 1− λ ∈ R+)
= λg(x) + (1− λ)g(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que g é con-
vexa.
Além disso, notemos que f(x) = x2 é convexa (pois f ′′(x) = 2 ≥ 0)
e também é não decrescente para x ≤ 0. Daí segue que, para
x, y ∈ S (conjunto convexo que é o domínio de g) e λ ∈ [0, 1]:
t(λx+ (1− λ)y) = f(g(λx+ (1− λ)y))
≤ f(λg(x) + (1− λ)g(y))
(f é não decrescente para x ≥ 0 e g é convexa
com contradomínio R+)
≤ λf(g(x)) + (1− λ)f(g(y)) (f é convexa)
= λt(x) + (1− λ)t(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que t é con-
vexa (mais geralmente, se f é convexa não decrescente e g é con-
vexa, segue que a composta f ◦ g é convexa).
(c) s(x) = exp(f(x)), f : Rn → R.
Suponhamos que f seja convexa. Temos também que exp(x) é
convexa (pois exp′′(x) = exp(x) > 0) e não decrescente. Logo,
como s = exp ◦f , exp é convexa não decrescente e f é convexa,
segue pelo exercício anterior (3.3)b)) que s é convexa.
3.4 Desenhe as curvas de nível de uma função convexa. Justiﬁque!
40
Seja f uma função convexa deﬁnida num convexo S. Seja também
nivα(f) = {x ∈ S | f(x) ≤ α} o conjunto de nível de f correspondente
à constante α ∈ R.
Provemos que nivα(f) é um conjunto convexo. Para x, y ∈ nivα(f) e
λ ∈ [0, 1], temos que:
f(λx+ (1− λ)y) ≤ λf(x) + (1− λ)f(y) (f é convexa)
≤ λα + (1− λ)α (x, y ∈ nivα(f))
= α
Logo, λx+ (1− λ)y ∈ nivα(f). Como x, y, λ são arbitrários, segue que
nivα(f) é um conjunto convexo.
Como a curva de nível correspondente a α é a fronteira do conjunto
nivα(f), isso signiﬁca que cada curva de nível de f é a fronteira de um
conjunto convexo (que é nivα(f) ). Em outras palavras, cada curva de
nível de f é uma curva convexa. Por exemplo, as curvas de nível de
f(x, y) = x2 + y2 estão a seguir:
Figura 5: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores dafunção.
3.5 Seja f um conjunto convexo não vazio em Rn. Seja f : Rn → R a
função deﬁnida por f(y) = min{‖y − x‖ | x ∈ S}. Esta função é
convexa. Prove esta aﬁrmação quando S = {x ∈ R2 | ax1 + bx2 = c} .
Interprete geometricamente.
S é conjunto dos pontos (x1, x2) ∈ R2 que pertencem à reta deﬁnida
por ax1 + bx2− c = 0. Como f(y) = min{‖y − x‖ | x ∈ S}, temos que
41
f(y) é a distância de y à reta deﬁnida por ax1 + bx2− c = 0 (em outras
palavras, f(y) é a norma da projeção de y em S), e portanto
f(y) =
|ay1 + by2 − c|√
a2 + b2
.
Para x, y ∈ S e λ ∈ [0, 1], temos:
f(λx+ (1− λ)y) = |a(λx1 + (1− λ)y1) + b(λx2 + (1− λ)y2)− c|√
a2 + b2
=
|λ(ax1 + bx2) + (1− λ)(ay1 + by2)− (λ+ (1− λ))c|√
a2 + b2
=
|λ(ax1 + bx2 − c) + (1− λ)(ay1 + by2 − c)|√
a2 + b2
≤ λ |ax1 + bx2 − c|√
a2 + b2
+ (1− λ) |ay1 + by2 − c|√
a2 + b2
(desig. triang.)
= λf(x) + (1− λ)f(y)
Logo, como x, y, λ foram escolhidos arbitrariamente, f é convexa.
1.4 Capítulo 4 - Modelo de algoritmo com buscas dire-
cionais
4.1 Considere a função quadrática f(x) = 1
2
xtAx + btx + c = 1
2
< x,Ax >
+ < b, x > +c, onde A ∈ Rn×n é simétrica, b ∈ Rn e c ∈ R. Seja x˜
minimizador local de f . Prove que x˜ é minimizador global.
Como calculado no exercício 1.16 b), temos que ∇f(x) = Ax + b e
∇2f(x) = A. Como x˜ é minimizador local de f , temos que ∇f(x˜) =
Ax˜+ b = 0⇒ b = −Ax˜. Portanto, f pode ser reescrita como:
42
f(x) =
1
2
< x,Ax > + < b, x > +c
=< x,
1
2
Ax > + < −Ax˜, x > +c
=< x,
1
2
Ax− Ax˜ > +c
=< x,A(
1
2
x− x˜) > +c
Logo, para x ∈ Rn:
f(x)− f(x˜) = 1
2
< x,Ax > + < b, x > +�c−
1
2
< x˜,Ax˜ > − < b, x˜ > −�c
=< x,
1
2
Ax > + < b, x > + < x˜,−1
2
Ax˜ > + < −b, x˜ >
=< x,
1
2
Ax > + < b, x > + < −x˜, 1
2
Ax˜ > + < b,−x˜ >
=< x,
1
2
Ax > + < −Ax˜, x > + < −x˜, 1
2
Ax˜ > + < −Ax˜,−x˜ >
=< x,
1
2
Ax > + < −Ax˜, x > + < −x˜, 1
2
Ax˜− Ax˜ >
=< x,
1
2
Ax > + < −Ax˜, x > + < −x˜,−1
2
Ax˜ >
=< x,
1
2
Ax > +
1
2
< −Ax˜, x > +1
2
< −Ax˜, x > + < −x˜,−1
2
Ax˜ >
=< x,
1
2
Ax > + < x,−1
2
Ax˜ > + < −x, 1
2
Ax˜ > + < −x˜,−1
2
Ax˜ >
(< −x, 1
2
Ax˜ >= −1
2
n∑
i=1
n∑
j=1
aijxix˜j =< −x˜, 1
2
Ax > pois A é simétrica)
=< x,
1
2
Ax > + < x,−1
2
Ax˜ > + < −x˜, 1
2
Ax > + < −x˜,−1
2
Ax˜ >
=< x− x˜, 1
2
Ax− 1
2
Ax˜ >
=
1
2
< x− x˜, A(x− x˜) >
Ainda, como x˜ é minimizador local de f , para todo x ∈ Rn existe ε > 0
tal que:
43
0 ≤ f(x˜+ ε(x− x˜))− f(x˜)
=< x˜+ ε(x− x˜), A(1
2
[x˜+ ε(x− x˜)]− x˜) > +�c− < x˜,A(
1
2
x˜− x˜) > −�c
=< x˜+ εx− εx˜,−1
2
Ax˜+
1
2
εAx− 1
2
εAx˜ > − < x˜,−1
2
Ax˜ >
=< x˜+ ε(x− x˜),−1
2
Ax˜+
1
2
εA(x− x˜) > − < x˜,−1
2
Ax˜ >
=���
���
��
< x˜,−1
2
Ax˜ >+ < x˜,
1
2
εA(x− x˜) > + < ε(x− x˜),−1
2
Ax˜ > + < ε(x− x˜), 1
2
εA(x− x˜) >
−�����
���
< x˜,−1
2
Ax˜ >
=
1
2
ε < x˜, A(x− x˜) > −1
2
ε < x− x˜, Ax˜ > +ε
2
2
< x− x˜, A(x− x˜) >
=���
���
��1
2
ε < x˜, Ax >−XXXXXXXX
1
2
ε < x˜, Ax˜ >−�����
���1
2
ε < x,Ax˜ >+
XXXXXXXX
1
2
ε < x˜, Ax˜ >
+
ε2
2
< x− x˜, A(x− x˜) >
=
ε2
2
< x− x˜, A(x− x˜) >
Daí segue que < x − x˜, A(x − x˜) >≥ 0. Como f(x) − f(x˜) = 1
2
<
x − x˜, A(x − x˜) >, temos também que f(x) − f(x˜) ≥ 0 para todo
x ∈ Rn. Portanto, x˜ é minimizador global de f .
4.2 Através de um desenho mostre que se d é uma direção tal que∇tf(x)d =
0 então d pode ser de descida, subida ou nenhuma das duas coisas.
No desenho a seguir, temos ∇tf(x)d1 = 0 e ∇tf(x)d2 = 0 (pois são
duas direções ortogonais a ∇f(x)), mas d1 é direção de descida (pois
vai na direção de curvas de nível de valor mais baixo de f) e d2 é direção
de subida (pois vai na direção de curvas de nível de valor mais alto de
f)
44
Um caso em que d não é direção de descida e nem de subida ocorre
quando as curvas de nível de f são paralelas. Quando isso ocorre, as
direções perpendiculares a ∇f(x) levam apenas a pontos da mesma
curva de nível de x, e.g., quando f(x, y) = x+ y:
4.3 Considere o sistema não linear
fi(x) = 0, fi : R
n → R, i = 1, . . . ,m.
Como resolveria o sistema com técnicas de minimização irrestrita?
Seja F : Rm → R tal que, para todo i = 1, . . . ,m, temos que ∂F
∂xi
= fi
(ou seja, ∇F (x1, . . . , xm) = (f1, . . . , fm)). Logo, utilizando técnicas de
minimização irrestrita podemos tentar encontrar um ponto xk ∈ Rm
tal que ∇F (xk) = 0. Temos três casos:
• se m = n, então xk ∈ Rn. Como ∇F = (f1, . . . , fm), então segue
que fi(x
k) = 0 para todo i = 1, . . . ,m;
• se m < n (há mais variáveis que equações), então seria necessá-
rio descobrir as n − m variáveis livres do sistema, escrevendo-as
45
em função das variáveis presentes em xk. Dessa forma, podemos
estender xk para um xk
′ ∈ Rn, de tal forma que fi(xk′) = 0 para
todo i = 1, . . . ,m;
• se m > n (há mais equações que variáveis), então podemos res-
tringir xk para um xk
′ ∈ Rn (eliminando as variáveis de xk que
não aparecem no sistema), de tal forma que fi(x
k′) = 0 para todo
i = 1, . . . ,m;
4.4 Seja f(x) = 1
2
‖F (x)‖2, onde F : Rn → Rn, F ∈ C1. Considere o
método iterativo deﬁnido por
xk+1 = xk − λk(JF (xk))−1F (xk).
Suponha que JF (x) é não singular para todo x. Prove que se na con-
dição de Armijo usamos α = 0.5, resulta
f(xk+1)
f(xk)
≤ 1− λk
.
Seja F (x) = (F1(x), . . . , Fn(x))
t
, com Fi : R
n → R. Temos então que
f(x) = 1
2
‖F (x)‖22 = 12
n∑
i=1
Fi(x)
2
. Daí segue que:
(∇f(x))k = ∂f
∂xk
=
∂
∂xk
[
1
2
n∑
i=1
Fi(x)
2
]
=
n∑
i=1
Fi(x)
∂Fi
∂xk
(x)
=
n∑
i=1
Fi(x)(JF (x))ik
Logo, ∇tf(x) = F (x)tJF (x)⇒ ∇f(x) = J tF (x)F (x).
Pela deﬁnição do método iterativo, temos dk = −(JF (xk))−1F (xk) (ou
seja, dk é a direção de Newton). Nesse caso, como f(x) =
1
2
‖F (x)‖2 ≥ 0
para todo x ∈ Rn, a condição de Armijo ﬁca:
46
f(xk + λkdk) ≤ f(xk) + α∇tf(xk)λkdk
f(xk+1) ≤ f(xk) + 1
2
F (xk)tJF (x
k)λk[−(JF (xk))−1F (xk)]
f(xk+1) ≤ f(xk)− λk
2
F (xk)t JF (x
k)(JF (x
k))−1︸ ︷︷ ︸
=I
F (xk)
f(xk+1) ≤ f(xk)− λk
2
F (xk)tF (xk)︸ ︷︷ ︸
=‖F (xk)‖2
2
f(xk+1)
f(xk)
≤ 1− λk
∥∥F (xk)∥∥2
2
2f(xk)︸ ︷︷ ︸
=1 pois 2f(xk)=‖F (x)‖22
f(xk+1)
f(xk)
≤ 1− λk
4.5 Seja f : R→ R, f ∈ C2, f ′(0) < 0 e f ′′(x) < 0 para todo x ∈ R. Seja
α ∈ (0, 1). Prove que, para todo x > 0,
f(x) ≤ f(0) + αxf ′(0).
Como f ∈ C2, para x > 0, pela fórmula de Taylor com resto de La-
grange existe pelo menos um x¯ ∈ (0, x) tal que:
f(x) = f(0) + xf ′(0) +
f ′′(x¯)
2︸ ︷︷ ︸
<0
x2︸︷︷︸
>0
≤ f(0) + x︸︷︷︸
>0
f ′(0)︸ ︷︷ ︸
<0
(pois
f ′′(x¯)
2
x2 < 0)
≤ f(0) + αxf ′(0) (pois α ∈ (0, 1) e xf ′(0) < 0)
4.6 Se um método de direções de descida com busca linear exata é utilizado
para minimizar uma função quadrática q : Rn → R, mostre que o passo
ótimo é dado por
λ = − d
t∇q(x)
dt∇2q(x)d,
47
onde d é a direção utilizada a partir do ponto x.
Consideremos a função quadrática q(x) = 1
2
xtAx + btx + c = 1
2
<
x,Ax > + < b, x > +c, onde A ∈ Rn×n simétrica, b ∈ Rn e c ∈ R.
Pelo exercício 1.16)b), sabemos que ∇q(x) = Ax+ b e ∇2q(x) = A .
Seja x o ponto atual, e seja d uma direção de descida (i.e.,∇tq(x)d < 0).
Deﬁnamos φ(λ) := q(x+ λd). Temos que:
φ(λ) = q(x+ λd)
=
1
2
< x+ λd,A(x+ λd) > + < b, x+ λd > +c
=
1
2
[< x,Ax > + < x,Aλd > + < λd,Ax > + < λd,Aλd >]+ < b, x > + < b, λd > +c
=
1
2
[< x,Ax > +λ < x,Ad > +λ < d,Ax > +λ2 < d,Ad >]+ < b, x > +λ < b, d > +c
A busca linear exata escolhe o tamanho do passo λ que minimiza φ(λ).
Os pontos estacionários de φ(λ) são dados por:
48
0 = φ′(λ)
0 =
1
2
[< x,Ad > + < d,Ax > +2λ < d,Ad >]+ < b, d >
−2 < b, d > =< x,Ad > + < d,Ax> +2λ < d,Ad >
2λ < d,Ad > = −[2 < b, d > + < x,Ad > + < d,Ax >]
λ < d,Ad > = −[< b, d > +1
2
< x,Ad > +
1
2
< d,Ax >]
λ < d,Ad > = −[< b, d > +1
2
< x,Ad > + < d,
1
2
Ax >]
λ < d,Ad > = −[< x, 1
2
Ad > + < d,
1
2
Ax+ b >]
(< x,
1
2
Ad > =< d,
1
2
Ax > pois A é simétrica)
λ < d,Ad > = −[< d, 1
2
Ax > + < d,
1
2
Ax+ b >]
λ < d,Ad > = −[< d,Ax+ b >]
λ = −< d,Ax+ b >
< d,Ad >
λ = −d
t(Ax+ b)
dtAd
λ = − d
t∇q(x)
dt∇2q(x)d
Seja λ∗ = − dt∇q(x)
dt∇2q(x)d . Calculando a derivada segunda de φ em λ
∗
,
obtemos:
φ′′(λ∗) =< d,Ad >
= dtAd (> 0 se A for deﬁnida positiva)
Logo, para A simétrica deﬁnida positiva (nesse caso, λ∗ é o mínimo de
φ(λ)), o passo ótimo é dado por λ∗ = − dt∇q(x)
dt∇2q(x)d .
4.7 O critério de decréscimo suﬁciente (condição de Armijo) exige λ ∈ R
tal que
ϕ(λ) = f(x+ λd) < f(x) + αλ∇tf(x)d = ϕ(0) + αλϕ′(0), (∗)
49
com α ∈ (0, 1). Se f é uma função quadrática, então ϕ é uma pará-
bola. Prove que se o minimizador λ˜ dessa parábola é admissível em (∗)
devemos ter α ∈ (0, 1
2
).
Consideremos a função quadrática f(x) = 1
2
xtAx + btx + c = 1
2
<
x,Ax > + < b, x > +c, onde A ∈ Rn×n simétrica deﬁnida positiva,
b ∈ Rn e c ∈ R.
Pelo exercício 1.16)b), sabemos que ∇f(x) = Ax+ b e ∇2f(x) = A .
Seja x o ponto atual, e seja d uma direção de descida (i.e., ∇tf(x)d <
0). Deﬁnindo ϕ(λ) := f(x + λd), pelo exercício 4.6 sabemos que o
minimizador de ϕ(λ) é λ˜ = −<d,Ax+b>
<d,Ad>
.
Também pelo exercício 4.6, sabemos que
50
ϕ(λ) =
1
2
[< x,Ax > +λ < x,Ad > +λ < d,Ax > +λ2 < d,Ad >]
+ < b, x > +λ < b, d > +c
= λ2
a′︷ ︸︸ ︷
[
1
2
< d,Ad >] +λ
b′︷ ︸︸ ︷
[
1
2
(< x,Ad > + < d,Ax >)+ < b, d >]
+
c′︷ ︸︸ ︷
1
2
< x,Ax > + < b, x > +c
⇒
ϕ(0) =
1
2
< x,Ax > + < b, x > +c
e
ϕ(λ˜) =
−∆
4a′
=
−(b′2 − 4a′c′)
4a′
=
4a′c′ − b′2
4a′
= c′ − b
′2
4a′
=
1
2
< x,Ax > + < b, x > +c− [
1
2
(< x,Ad > + < d,Ax >)+ < b, d >]2
4(1
2
< d,Ad >)
(< x,Ad >=< d,Ax > pois A é simétrica)
=
1
2
< x,Ax > + < b, x > +c− [< d,Ax > + < b, d >]
2
2 < d,Ad >
=
1
2
< x,Ax > + < b, x > +c− < d,Ax+ b >
2
2 < d,Ad >
e que
51
ϕ′(λ) =
1
2
[< x,Ad > + < d,Ax > +2λ < d,Ad >]+ < b, d >
⇒
ϕ′(0) =
1
2
[< x,Ad > + < d,Ax >]+ < b, d >
(< x,Ad >=< d,Ax > pois A é simétrica)
=< d,Ax > + < b, d >
=< d,Ax+ b >
Se λ˜ satisfaz a condição de Armijo, temos que:
ϕ(λ˜) < ϕ(0) + αλ˜ϕ′(0)
((((
((((
((((
((1
2
< x,Ax > + < b, x > +c− < d,Ax+ b >
2
2 < d,Ad >
<
((((
((((
((((
((1
2
< x,Ax > + < b, x > +c+ α(−< d,Ax+ b >
< d,Ad >
) < d,Ax+ b >
((((
((((< d,Ax+ b >2
2
XXXXX< d,Ad >
> α(
((((
(((
< d,Ax+ b >2
XXXXX< d,Ad >
1
2
> α
Pela proposição 4.1 (p.21 do livro da Ana) sabemos que α > 0, e pela
inequação anterior se λ˜ satisfaz a condição de Armijo então α < 1
2
.
Logo, se λ˜ satisfaz a condição de Armijo, então α ∈ (0, 1
2
).
4.8 Sejam f : Rn → R, x, d ∈ Rn e λ > 0 tal que x+λd satisfaz a condição
de Armijo. Seja 0 < µ < λ. µ satisfaz a condição de Armijo? Prove ou
dê um contraexemplo.
Como a condição de Armijo é satisfeita para x+ λd, temos:
f(x+ λd)︸ ︷︷ ︸
φ(λ):=
< f(x) + αλ∇tf(x)d︸ ︷︷ ︸
s(λ):=
= φ(0) + αλφ′(0)
Supondo que d seja direção de descida, temos também que:
52
αλ∇tf(x)d < 0
µ satisfaz a condição de Armijo apenas se:
f(x+ µd) < f(x) + αµ∇tf(x)d
φ(µ) < φ(0) + αµφ′(0)
φ(µ) < φ(0) + αφ′(0)(µ− 0) (∗)
Logo, em particular, se φ(λ) for uma função convexa no intervalo [0, µ]
e se φ′(0) > 0, teremos que:
φ(µ) ≥ φ(0) + φ′(0)(µ− 0)
(como φ′(0)(µ− 0) > 0 e α ∈ (0, 1), temos)
φ(µ) ≥ φ(0) + αφ′(0)(µ− 0)
Nesse caso, temos então que a inequação (∗) não é satisfeita, e portanto
µ não satisfaz a condição de Armijo.
Uma ilustração de um contraexemplo aparece a seguir. Nesse exemplo,
temos que λ = t é admissível (satisfaz a condição de Armijo), mas
λ = βs não é (e temos que 0 < βs < t):
53
4.9 Sejam f : Rn → R, f ∈ C2 e x¯ ∈ Rn tal que ∇f(x¯) = 0 e ∇2f(x¯) não
é semideﬁnida positiva. Prove que existe uma direção de descida d em
x¯.
Como ∇2f(x¯) não é semideﬁnida positiva, então existe d ∈ Rn tal que
dt∇2f(x¯)d < 0.
Como dt∇2f(x¯)d < 0, então escolhamos d′ pequeno o suﬁciente tal que
d′t∇2f(x¯ + εd′)d′ < 0 para todo ε ∈ (0, 1). Pela fórmula de Taylor de
segunda ordem, temos que existe ε ∈ (0, 1) tal que
f(x¯+ d′) = f(x¯) +∇tf(x¯)d′ + 1
2
d′t∇2f(x¯+ εd′)d′
f(x¯+ d′)− f(x¯) =������:
0∇tf(x¯)d′ + 1
2
d′t∇2f(x¯+ εd′)d′
=
1
2
<0︷ ︸︸ ︷
d′t∇2f(x¯+ εd′)d′
< 0
Logo, como f(x¯ + d′) − f(x¯) < 0, d′ é uma direção de descida para f
em x¯.
4.10 No processo de minimizar uma função f : Rn → R, f ∈ C1, a iteração
xk foi obtida fazendo uma busca linear ao longo da direção dk−1. De-
termine uma direção dk ortogonal a dk−1, de descida a partir de xk e
que seja uma combinação linear de dk−1 e ∇f(xk).
Como xk foi obtida fazendo uma busca linear ao longo da direção dk−1,
então existe λk−1 > 0 tal que xk = xk−1 + λk−1dk−1.
Como dk é uma combinação linear de dk−1 e ∇f(xk), então existem
a, b ∈ R tal que dk = adk−1 + b∇f(xk).
Como dk é ortogonal a dk−1, temos:
54
(dk)tdk−1 = 0
(adk−1 + b∇f(xk))tdk−1 = 0
(a(dk−1)t + b∇tf(xk))dk−1 = 0
a(dk−1)tdk−1 + b∇tf(xk)dk−1 = 0
a
∥∥dk−1∥∥2
2
+ b∇tf(xk)dk−1 = 0
a = −b∇
tf(xk)dk−1
‖dk−1‖22
Observemos que, pela desigualdade de Cauchy-Schwarz, para quaisquer
u, v ∈ Rn temos :
(utv)2 ≤ ‖u‖22 ‖v‖22
(para u = ∇f(xk) e v = dk−1)
(∇tf(xk)dk−1)2 ≤ ∥∥∇f(xk)∥∥2
2
∥∥dk−1∥∥2
2
(∇tf(xk)dk−1)2
‖dk−1‖22
− ∥∥∇f(xk)∥∥2
2
≤ 0
∥∥∇f(xk)∥∥2
2
− (∇
tf(xk)dk−1)2
‖dk−1‖22
≥ 0 (> 0 se ∇f(xk) e dk−1 forem L.I.)
55
Além disso, como dk é direção de descida para f a partir de xk, temos:
∇tf(xk)dk < 0
∇tf(xk)(adk−1 + b∇f(xk)) < 0
a∇tf(xk)dk−1 + b∇tf(xk)∇f(xk) < 0
−b∇
tf(xk)dk−1
‖dk−1‖22
∇tf(xk)dk−1 + b ∥∥∇f(xk)∥∥2
2
< 0
−b(∇
tf(xk)dk−1)2
‖dk−1‖22
+ b
∥∥∇f(xk)∥∥2
2
< 0
b

≥0 por Cauchy-Schwarz︷ ︸︸ ︷∥∥∇f(xk)∥∥2
2
− (∇
tf(xk)dk−1)2
‖dk−1‖22
 < 0
(se ∇f(xk) e dk−1 forem L.I.)
b < 0
Portanto, temos que a direção dk desejada é dada por
dk = −b∇
tf(xk)dk−1
‖dk−1‖22
dk−1 + b∇f(xk)
, sendo b algum número real negativo (supondo que ∇f(xk) e dk−1 são
L.I.).
4.11 Sejam f : Rn → R, x¯ ∈ Rn com ∇f(x¯) 6= 0. Seja M ∈ Rn×n deﬁnida
positiva. Prove que d = −M∇f(x¯) é uma direção de descida em x¯.
Como M é deﬁnida positiva, temos d′tMd′ > 0 para todo 0 6= d′ ∈ Rn.
Em particular, para d′ = ∇f(x¯) 6= 0, segue que:
d′tMd′ > 0
∇tf(x¯)M∇f(x¯) > 0
∇tf(x¯)[−M∇f(x¯)] < 0
∇tf(x¯)d < 0
Logo, d = −M∇f(x¯) é uma direção de descida para f em x¯.
56
1.5 Capítulo 5 - Ordem de convergência
5.1 Prove que convergência superlinear implica linear.
Suponhamos que {xk} ⊆ Rn seja uma sequência que converge superli-
nearmente a x∗, isto é:
lim
k→∞
ek+1
ek
= lim
k→∞
∥∥xk+1 − x∗∥∥
‖xk − x∗‖ = 0
Da deﬁnição de limite de sequência, para todo ε > 0 (em particular
para ε ∈ (0, 1)) existe um natural k0 tal que se k > k0 então:
∥∥∥∥ek+1ek − 0
∥∥∥∥ < ε∥∥∥∥∥
∥∥xk+1 − x∗∥∥
‖xk − x∗‖
∥∥∥∥∥ < ε∥∥xk+1 − x∗∥∥
‖xk − x∗‖ < ε∥∥xk+1 − x∗∥∥ < ε∥∥xk − x∗∥∥
ek+1 < εek
Logo, como podemos escolher ε ∈ (0, 1), segue que {xk} converge line-
armente a x∗.
5.2 Prove que convergência quadrática implica superlinear.
Suponhamos que {xk} ⊆ Rn seja uma sequência que converge quadra-
ticamente a x∗, isto é: existem a, k0 > 0 tais que, para k > k0:
57
ek+1 ≤ a(ek)2∥∥xk+1 − x∗∥∥ ≤ a ∥∥xk − x∗∥∥2∥∥xk+1 − x∗∥∥
‖xk − x∗‖ ≤ a
∥∥xk − x∗∥∥
lim
k→∞
∥∥xk+1 − x∗∥∥
‖xk − x∗‖ ≤ limk→∞ a
∥∥xk − x∗∥∥
= a lim
k→∞
∥∥xk − x∗∥∥
= 0
Logo, lim
k→∞
‖xk+1−x∗‖
‖xk−x∗‖ = limk→∞
ek+1
ek
= 0 e, portanto,{xk} converge super-
linearmente a x∗.
5.3 Mostre que uma sequência pode convergir linearmente com uma norma
mas não com outra. No entanto, a convergência superlinear é indepe-
dente da norma.
não resolvido
1.6 Capítulo 6 - Métodos clássicos de descida
6.1 Seja f : Rn → R, diferenciável em x¯ e sejam d1, . . . , dn ∈ Rn vetores
linearmente independentes. Suponha que o mínimo de f(x¯+ λdj) com
λ ∈ R ocorra em λ = 0 para j = 1, . . . , n. Prove que ∇f(x¯) = 0. Isso
implica que f tem um mínimo local em x¯ ?
Deﬁnamos φj(λ) := f(x¯ + λd
j). Pela regra da cadeia, temos φ′j(λ) =
∇tf(x¯ + λdj)dj. Como o mínimo de φj(λ) ocorre em λ = 0 para
j = 1, . . . , n, então para todo j = 1, . . . , n segue que:
φ′j(0) = 0
∇tf(x¯+ 0dj)dj = 0
∇tf(x¯)dj = 0
Ou seja, ∇f(x¯) é ortogonal a cada vetor dj (para todo j = 1, . . . , n).
Ainda, como {d1, . . . , dn} são n vetores L.I. em Rn, então eles formam
58
uma base de Rn. Portanto, existem k1, . . . , kn ∈ R tal que ∇f(x¯) =
n∑
i=1
kid
i
. Daí vem que:
‖∇f(x¯)‖22 =< ∇f(x¯),∇f(x¯) >
=<
n∑
i=1
kid
i,∇f(x¯) >
=
n∑
i=1
ki< d
i,∇f(x¯) >︸ ︷︷ ︸
=0
= 0
Logo, ‖∇f(x¯)‖2 = 0 ⇒ ∇f(x¯) = 0. Logo, x¯ é um ponto crítico de f ,
mas não necessariamente um mínimo local. Seria possível que existisse
alguma direção d 6∈ {d1, . . . , dn} que fosse uma direção de descida para
f em x¯, e nesse caso x¯ seria um ponto de sela de f .
6.2 Seja f(x) = 1
2
xtAx + btx + c, onde A ∈ Rn×n é simétrica e deﬁnida
positiva, b ∈ Rn e c ∈ R. Sejam L1 e L2 duas retas diferentes e
paralelas em Rn, cujo vetor diretor é d. Sejam x1 e x2 minimizadores
de f em L1 e L2, respectivamente. Prove que (x
2 − x1)tAd = 0.
Pelo exercício 1.16)b), temos que ∇f(x) = Ax + b. Como x1 e x2
minimizadores de f em L1 = x1+λd e L2 = x2+λd (respectivamente),
temos que as funções f(x1 + λd) e f(x2 + λd) são ambas minimizadas
para λ = 0. Logo,
∂f(x1 + λd)
∂λ
∣∣∣∣
λ=0
= 0
∇tf(x1 + λd)d|λ=0 = 0
∇tf(x1)d = 0
∂f(x2 + λd)
∂λ
∣∣∣∣
λ=0
= 0
∇tf(x2 + λd)d|λ=0 = 0
∇tf(x2)d = 0
59
Daí vem que
(x2 − x1)tAd =< x2 − x1, Ad >
=< A(x2 − x1), d > (pois A é simétrica)
=< Ax2 − Ax1, d >
=< Ax2 + b− Ax1 − b, d >
=< ∇f(x2)−∇f(x1), d >
=< ∇f(x2), d > − < ∇f(x1), d >
= ∇tf(x2)d−∇tf(x1)d
= 0− 0
= 0
6.3 Seja f : Rn → R, f ∈ C1. Para k = 0, 1, 2, . . ., deﬁnimos xk+1 =
xk − λk∇f(xk) onde λk ≥ λ¯ > 0 para todo k ≥ 0. Suponha que
{xk}∞k=0 converge para x¯. Prove que ∇f(x¯) = 0.
O enunciado do exercício não menciona isso, mas suponhamos que λk
seja escolhido de forma a minimizar f(xk−λk∇f(xk)) , restrito a λk ≥ 0
(ou seja, o algoritmo em questão é o método do gradiente descrito no
algoritmo 6.1 da p.33 do livro da Ana). Em outras palavras, o tamanho
do passo é escolhido pela �regra de minimização� (eq 1.10 do Bertsekas,
p. 29).
Portanto, este é um caso particular da proposição 1.2.1 do Bertse-
kas (estacionariedade de pontos limite para métodos do gradiente).
Logo, todo ponto limite de {xk} é um ponto estacionário (e, portanto
∇f(x¯) = 0).
Alternativamente, suponhamos que ∇tf(xk)∇f(xk+1) = 0 (resultado
do exercício 6.4, que será provado logo em seguida). Como f ∈ C1 e
{xk} converge a x¯, temos que {f(xk)} converge a f(x¯). Logo,
‖∇f(x¯)‖22 = lim
k→∞
< ∇f(xk),∇f(xk+1) >
= lim
k→∞
∇tf(xk)∇f(xk+1)
= lim
k→∞
0 (pelo exercício 6.4)
= 0
60
Portanto, ‖∇f(x¯)‖22 = 0⇒ ∇f(x¯) = 0.
6.4 Prove que no método do gradiente com busca linear exata temos que
∇tf(xk)∇f(xk+1) = 0.
Deﬁnamos φk(λ) := f(x
k − λ∇f(xk)). Como λk minimiza φk(λ), pela
regra da cadeia temos:
φ′k(λk) = 0
∇tf(xk − λk∇f(xk))[−∇f(xk)] = 0
∇tf(xk+1)[−∇f(xk)] = 0
∇tf(xk+1)∇f(xk) = 0
6.5 Seja f : Rn → R, f ∈ C1. Seja y o resultado de aplicarmos uma
iteração do método do gradiente com busca linear exata a partir de x.
Seja z o resultado de aplicarmos uma iteração do método do gradiente
a partir de y. Prove que z − x é uma direção de descida a partir de x.
Das deﬁnições de z e y, temos:
y = x− λx∇f(x) (λx ≥ 0 que minimiza φx(λ) = f(x− λ∇f(x)))
z = y − λy∇f(y) (λy ≥ 0 que minimiza φy(λ) = f(y − λ∇f(y)))
Do exercício 6.4, como (x, y) e (y, z) são pares de pontos consecutivos
do método do gradiente com busca linear exata, sabemos que:
∇tf(x)∇f(y) = 0
∇tf(y)∇f(z) = 0
Temos que:
61
∇tf(x)(z − x) = ∇tf(x)z −∇tf(x)x
= ∇tf(x)[y − λy∇f(y)]−∇tf(x)[y + λx∇f(x)]
=���
��∇tf(x)y − λy∇tf(x)∇f(y)−�����∇tf(x)y − λx∇tf(x)∇f(x)
= −λy�����
���:0∇tf(x)∇f(y)− λx∇tf(x)∇f(x)
= −λx ‖∇f(x)‖22
(supondo x não estacionario, temos λx > 0 e ‖∇f(x)‖22 > 0)
< 0 (para x não estacionario)
Logo, como ∇tf(x)(z − x) < 0, z − x é uma direção de descida para f
a partir de x.
6.6 Desenhe as curvas de nível da função f(x) = x21 + 4x
2
2 − 4x1 − 8x2.
Encontre o ponto x¯ que minimiza f . Prove que o método do gradiente,
aplicado a partir de x0 = (0, 0)t não pode convergir para x¯ em um
número ﬁnito de passos, se usarmos busca linear exata. Há algum ponto
x0 para o qual o método converge em um número ﬁnito de passos?
parcialmente resolvido
Figura 6: Curvas de nível geradas com o WolframAlpha . Regiões mais claras
indicam valores maiores da função.
Temos que f(x) = 1
2
xtAx + btx, onde A =
[
2 0
0 8
]
e b =
[ −4
−8
]
.
Como A é simétrica deﬁnida positiva, pelo exercício 1.16)b) temos
∇f(x) = Ax + b. Ainda, pelo exercício 4.1, todo minimizador local
62
de f é um minimizador global. Portanto, é suﬁciente a condição de
primeira ordem:
∇f(x¯) = 0
Ax¯+ b = 0[
2x1 − 4
8x2 − 8
]
=
[
0
0
]
x¯ =
[
2
1
]
Deﬁnamos φ(λ) = f(x + λd), sendo d = −∇f(x) = −Ax − b =[ −2x1 + 4
−8x2 + 8
]
. Pelo exercício 4.6 sabemos que:
φ(λ) = f(x+ λd)
= λ2[
1
2
< d,Ad >] + λ[< d,Ax > + < b, d >] +
1
2
< x,Ax > + < b, x >
= λ2[(4− 2x1)2 + 4(8− 8x2)2]
+ λ[2x1(4− 2x1)− 4(4− 2x1)− 8(8− 8x2) + 8(8− 8x2)x2]
+ (x1 − 4)x1 + x2(4x2 − 8)
Logo, pelo método do gradiente, cada novo ponto é da forma x + λd,
onde λ é o minimizador de φ(λ) (restrito a λ ≥ 0) .
Para x0 = (0, 0)t, φ(λ) é dada por φ(λ) = 272λ2−80λ, cujo minimizador
é λ0 =
−(−80)
2×272 =
5
34
. Logo, x1 = x0 + λ0d0 = (
10
20
, 20
17
)t.
Para x1 = (10
20
, 20
17
)t, φ(λ) é dada por φ(λ) = 4905
289
λ2 − 3177
289
λ− 6503
1156
, cujo
minimizador é λ1 =
353
1090
. Logo, x2 = x1 + λ1d1 = (
802
545
, 392
545
)t.
Para x2 = (802
545
, 392
545
)t, φ(λ) é dada por φ(λ) = 1264896
59405
λ2− 1829952
297025
λ− 4036
545
,
cujo minimizador é λ2 =
353
2440
. Logo, x3 = x2 + λ2d2 = (
270026
166225
, 173569
166225
)t.
.
.
.
6.7 Considere o método do gradiente aplicado à minimização de uma função
quadrática q(x) com hessiana deﬁnida positiva G. Seja x¯ a solução e
63
suponha que x0 possa ser escrito como x0 = x¯ + µv, onde v é um
autovetor de G associado ao autovalor λ e µ é um número real. Prove
que ∇q(x0) = µλv e que se for feita uma busca linear exata a partir
de x0 haverá convergência em uma iteração. A partir daí, mostre que
o método do gradiente converge em uma iteração para qualquer x0
sempre que G for da forma αI, com α ∈ R.
Como q(x) é quadrática, q(x) = 1
2
xtGx+btx+c. Pelo exercício 1.16)b),
temos que ∇q(x) = Gx + b e ∇2q(x) = G. Pelo exercício 4.1, todo
minimizador local de f é um minimizador global e, portanto, ∇q(x¯) =
Gx¯ + b = 0 ⇒ Gx¯ = −b. Como v é um autovetor de G associado ao
autovalor λ, então Gv = λv Temos que:
∇q(x0) = Gx0 + b
= G(x¯+ µv) + b
= Gx¯+ µGv + b
= −��b+ µλv + ��b
= µλv
Deﬁnamos φ(λ) = q(x0 + λd0), sendo d0 = −∇q(x0) = −Gx0 − b =
−µλv. Pelo exercício 4.6 sabemos que:
φ(λ) = f(x0 + λd0)
= λ2[
1
2
< d0, Gd0 >] + λ[< d0, Gx
0 > + < b, d0 >] +
1
2
< x0, Gx0 > + < b, x0 >
Pelo exercício 4.6, sabemos que o mínimo de φ(λ) é atingido em λ = λ0,
onde
64
λ0 =− d
t
0∇q(x0)
dt0∇2q(x0)d0
= − (−Gx
0 − b)t(Gx0 + b)
(−Gx0 − b)tG(−Gx0 − b)
=
(µλv)t(µλv)
(µλv)tG(µλv)
=
(µλv)t(µλv)
(µλv)tµλ(Gv)
= (
((((
((
(µλv)t(µλv)
λ((((
((((µλv)t(µλv)
=
1
λ
Logo, o próximo ponto x1 é dado por:
x1 = x0 + λ0d0
= x0 +
1
SSλ
(−µSSλv)
= x0 − µv
= x0 − (x0 − x¯)
=��x
0 −��x0 + x¯
= x¯
Portanto, se for feita uma busca linear exata a partir de x0, haverá
convergência em uma iteração.
Consideremos agora o caso G = αI, com α ∈ R, com x0 ∈ Rn .
Deﬁnamos φ(λ) = q(x0 + λd0), sendo d0 = −∇q(x0) = −Gx0 − b =
−αx0− b. Pelo exercício 4.6, sabemos que o mínimo de φ(λ) é atingido
em λ = λ0, onde
65
λ0 = − d
t
0∇q(x0)
dt0∇2q(x0)d0
= − (−αx
0 − b)t(αx0 + b)
(−αx0 − b)tαI(−αx0 − b)
= ((
((((
((((((αx0 + b)t(αx0 + b)
α((((
((((
(((
(αx0 + b)t(αx0 + b)
=
1
α
Logo, o próximo ponto x1 é dado por:
x1 = x0 + λ0d0
= x0 +
1
α
(−αx0 − b)
=��x
0 −��x0 − b
α
= − b
α
Como temos que
∇q(x1) = Gx1 + b
=�αI(− b
�α
) + b
= −b+ b
= 0
então x1 é o minimizador de q(x) (a condição necessária de primeira
ordem é também suﬁciente, pois G = αI é deﬁnida positiva) e, portanto
haverá convergência em uma iteração.
6.8 Seja f uma função quadrática com hessiana deﬁnida positiva. Prove
que se ao aplicarmos o método do gradiente a partir de um certo x0,
66
∇f(x0) 6= 0, encontramos a solução em uma iteração, então d = x1−x0
é um autovetor da hessiana.
Como f(x) é quadrática, f(x) = 1
2
xtGx+btx+c. Pelo exercício 1.16)b),
temos que ∇f(x) = Gx+ b e ∇2f(x) = G.
Deﬁnamos φ(λ) = f(x0 + λd0), sendo d0 = −∇f(x0) = −Gx0 − b 6= 0.
Pelo exercício 4.6, sabemos que o mínimo de φ(λ) é atingido em λ = λ0,
onde
λ0 = − d
t
0∇q(x0)
dt0∇2q(x0)d0
= − (−Gx
0 − b)t(Gx0 + b)
(−Gx0 − b)tG(−Gx0 − b)
=
(Gx0 + b)t(Gx0 + b)
(Gx0 + b)tG(Gx0 + b)
Logo, o próximo ponto x1 é dado por:
x1 = x0 + λ0d0
= x0 +
(Gx0 + b)t(Gx0 + b)
(Gx0 + b)tG(Gx0 + b)
(−Gx0 − b)
= x0 − (Gx
0 + b)t(Gx0 + b)
(Gx0 + b)tG(Gx0 + b)
(Gx0 + b)
Como encontramos a solução em uma iteração, então x1 é a solução e,
portanto, ∇f(x1) = Gx1 + b = 0⇒ Gx1 = −b. Daí segue que:
67
Gd = G(x1 − x0)
= Gx1 −Gx0
= −b−Gx0
= −∇f(x0)
= d0
=
1
λ0
(x1 − x0)
=
1
λ0
d
Logo, d = x1 − x0 é um autovetor de G (que é a hessiana de f) com
autovalor associado
1
λ0
.
6.9 Seja f(x) = 1
2
(x21 − x2)2 + 12(1 − x1)2. Qual é o minimizador de f?
Faça uma iteração do método de Newton para minimizar f a partir de
x0 = (2, 2)t. É um bom passo? Antes de decidir, calcule f(x0) e f(x1).
Como cada parcela de f(x) é sempre não negativa, temos que f(x) ≥
0 para todo x ∈ R2. Como f((1, 1)t) = 0, então x∗ = (1, 1)t é o
minimizador de f .
Calculando as derivadas parciais de f , temos:
∂f
∂x1
= 2x1(x
2
1 − x2) + x1 − 1
∂2f
∂x21
= 2(x21 − x2) + 4x21 + 1
= 6x21 − 2x2 + 1
∂f
∂x2
= −(x21 − x2)
= x2 + x
2
1
∂2f
∂x22
= 1
∂2f
∂x1∂x2
= −2x1
68
Logo,∇f(x) = (2x1(x21−x2)+x1−1, x2+x21)t e∇2f(x) =
[
6x21 − 2x2 + 1 −2x1
−2x1 1
]
.
Para x0 = (2, 2)t, ∇f(x0) = (9, 6)t e ∇2f(x0) =
[
21 −4
−4 1
]
.
Para encontrarmos d0, basta resolver o sistema:
∇2f(x0)d0 = −∇f(x0)[
21 −4
−4 1
]
d0 =
[ −9
−6
]
Logo, d0 = (−335 ,−1625 )t. Seja agora φ(λ) = f(x0 + λd0), e efetuemos a
busca linear com backtracking para a escolha de λ (conforme indicado
no passo 2 do algoritmo 6.2 da p.37 do livro da Ana, e descrito no passo
2 do algoritmo 4.2 da p.27 do livro da Ana).
Como o exercício não indicou qual deve ser o valor de α usado na busca
linear (veriﬁcação da condição de Armijo), escolhamos α = 1
2
. Como
f(x0) = 5
2
, as iterações são dadas por:
1.i λ← 1
1.ii f(x0 + λd0) = 1344.9 ≥ −124.4 = f(x0) + αλ∇tf(x0)d0
1.iii λ← λ/2 = 0.5
2.ii f(x0 + λd0) = 128.891 ≥ −60.95 = f(x0) + αλ∇tf(x0)d0
2.iii λ← λ/2 = 0.25
3.ii f(x0 + λd0) = 19.571 ≥ −29.225 = f(x0) + αλ∇tf(x0)d0
3.iii λ← λ/2 = 0.125
4.ii f(x0 + λd0) = 5.89991 ≥ −13.3625 = f(x0) + αλ∇tf(x0)d0
4.iii λ← λ/2 = 0.0625
5.ii f(x0 + λd0) = 3.41149 ≥ −5.43125 = f(x0) + αλ∇tf(x0)d0
5.iii λ← λ/2 = 0.03125
6.ii f(x0 + λd0) = 2.80156 ≥ −1.465625 = f(x0) + αλ∇tf(x0)d0
6.iii λ← λ/2 = 0.015625
69
7.ii f(x0 + λd0) = 2.61641 ≥ 0.5171 = f(x0) + αλ∇tf(x0)d0
7.iii λ← λ/2 = 0.0078125
8.ii f(x0 + λd0) = 2.55 ≥ 1.50 = f(x0) + αλ∇tf(x0)d0
8.iii λ← λ/2 = 0.00390625
9.ii f(x0 + λd0) = 2.52 ≥ 2.00 = f(x0) + αλ∇tf(x0)d0
9.iii λ← λ/2 = 0.001953125
10.ii f(x0 + λd0) = 2.51 ≥ 2.25 = f(x0) + αλ∇tf(x0)d0
10.iii λ← λ/2 = 0.000976563
11.ii f(x0 + λd0) = 2.505 ≥ 2.37 = f(x0) + αλ∇tf(x0)d0
11.iii λ← λ/2 = 0.000488281
12.ii f(x0 + λd0) = 2.502 ≥ 2.43 = f(x0) + αλ∇tf(x0)d0
12.iii λ← λ/2 = 0.000488281
.
.
.
18.ii f(x0 + λd0) = 2.50004 ≥ 2.49903 = f(x0) + αλ∇tf(x0)d0
18.iii λ← λ/2 = 2−18
.
.
.
Numericamente podemos perceber que o algoritmo não converge num
número ﬁnito de passos (já que a condição de Armijo simplesmente não
é satisfeita), mas suponhamos que o tamanho do passo escolhido seja
λ0 = 2
−17
(esse é o tamanho do passo usado na iteração 18).
Temos então que x1 = x0 + λ0d0 = (
1310687
655360
, 655279
327680
)t. Daí vem que
f(x1) ≈ 2.50004, sendo que f(x0) = 2.5. Logo, esse não é um bom
tamanho de passo, já que está muito longe do minimizador (além de x1
ter praticamente o mesmo valor da função objetivo em x0).
6.10 Considere o método de Newton aplicado para achar o minimizador de
f(x) = sin(x) a partir de x0 ∈ [−pi, pi]. A resposta desejada é x¯ = −pi2 .
Seja ε > 0 suﬁcientemente pequeno. Prove que se x0 = −ε então
x1 ' −1ε . Analogamente, o que acontece se x0 = ε, mas f ′′(x0) é
substituída por um número positivo pequeno?
70
Pelas expansões em série de Taylor em torno de x = 0, temos que
f ′(x) = cos(x) = 1− x
2
2!
+
x4
4!
− x
6
6!
+ . . .
f ′′(x) = − sin(x) = −x+ x
3
3!
− x
5
5!
+
x7
7!
− . . .
Para x0 = −ε, f ′(x0) ≈ 1 e f ′′(x0) ≈ −x0 = ε.
Para encontrarmos d0, basta resolver o sistema:
f ′′(x0)d0 = −f ′(x0)
εd0 ≈ −1
d0 ≈ −1
ε
Para algum valor de λ0 (obtido via busca linear), temos então que:
x1 = x0 + λ0d0
≈ −ε+ λ0(−1
ε
)
(para ε > 0 suﬁcientemente pequeno)
≈ −1
ε
Se x0 = ε, mas f
′′(x0) é substituída por um número positivo pequeno
(digamos, ε′ > 0), a direção é dada por:
f ′′(x0)d0 = −f ′(x0)
ε′d0 ≈ −1
d0 ≈ − 1
ε′
Para algum valor de λ0 (obtido via busca linear), temos então que:
71
x1 = x0 + λ0d0
≈ ε+ λ0(− 1
ε′
)
(para ε, ε′ > 0 suﬁcientemente pequenos)
≈ − 1
ε′
Portanto, assim como no caso anterior, obtemos x1 ≈ − 1
ε′ .
Isso mostra que o método de Newton teria problemas nesses casos, já
que sairíamos de un número pequeno |x0| = ε ≈ 0 para um número
negativo grande −1
ε
(o que não é desejável, já que o minimizador x¯ =
−pi
2
é o ponto médio do intervalo [−pi, 0] ).
6.11 O método de Newton pode convergir para um maximizador local! Para
veriﬁcar esta aﬁrmação, use o método de Newton para minimizar a
função f(x) = −x4
4
+ x
3
3
+ x2 a partir de x0 = 1 e tomando λ0 = 1. O
que acontece com o método de Newton quando aplicado à minimização
de f(x) = x
3
3
+ x (equivalente a calcular os zeros de f ′(x) = x2 + 1) ?
As primeira e segunda derivadas de f são dadas por:
f ′(x) = −x3 + x2 + 2x
f ′′(x) = −3x2 + 2x+ 2
Os pontos estacionários são dados por:
f ′(x) = 0
−x3 + x2 + 2x = 0
x(−x2 + x+ 2) = 0
x ∈ {−1, 0, 2}
Cada um dos pontos estacionários é tal que:
72
f ′′(−1) = −3 < 0⇒ x = −1 é máximo local
f ′′(0) = 2 > 0⇒ x = 0 é mínimo local
f ′′(2) = −6 < 0⇒ x = 2 é máximo local
Para encontrarmos d0 (do método de Newton), basta resolver o sistema:
f ′′(x0)d0 = −f ′(x0)
f ′′(1)d0 = −f ′(1)
d0 = −2
Para λ0 = 1, temos então que:
x1 = x0 +λ0d0
= 1 + 1(−2)
= −1
Como f ′(x1) = f ′(−1) = 0, então o método de Newton converge para
x = −1 (que é um máximo local, como já veriﬁcado acima).
Consideremos agora a função f(x) = x2 + 1 ⇒ f ′(x) = 2x. Os zeros
dessa função não são números reais, já que x2 + 1 = 0⇒ x = ±i. Con-
siderando a versão do método de Newton para achar zeros de funções,
enquanto |xn − xn+1| ≥ ε, encontramos o próximo ponto pela equação:
xn+1 = xn − f(xn)
f ′(xn)
= xn − x
2
n + 1
2xn
A partir de x0 = 1, temos então que:
73
x1 = 0
x2 →∞
e o método diverge. Tal comportamento iria ocorrer para qual ponto
inicial, ja que como o ponto inicial é um número real, os pontos se-
guintes também serão números reais, e portanto não há como haver
convergência para qualquer uma das raízes de f(x) = x2 + 1 (pois
ambas as raízes são não reais).
6.12 Seja f(x) = x41 + x1x2 + (1 + x2)
2
. Para x0 = (0, 0)t, por que o método
de Newton não pode ser aplicado satisfatoriamente? Se a direção d0 =
−(∇2f(x0))−1∇f(x0) é usada, mostre que nem d0 nem −d0 são direções
de descida.
As derivadas parciais são dadas por:
∂f
∂x1
= 4x31 + x2
∂2f
∂x21
= 12x21
∂f
∂x2
= x1 + 2 + 2x2
∂2f
∂x22
= 2
∂2f
∂x1∂x2
= 1
Logo,∇f(x) = (4x31 + x2, x1 + 2 + 2x2)t e ∇2f(x) =
[
12x21 1
1 2
]
.
Os pontos estacionários são tais que :{
4x31 + x2 = 0
x1 + 2 + 2x2 = 0
⇒
{
x2 = −4x31
x1 + 2− 8x31 = 0
⇒

x2 = − 13456
(
3
√
1728− 48√1290 + 2 3
√
6(36 +
√
1290)
)3
≈ −1.34794
x1 =
1
24
(
3
√
1728− 48√1290 + 2 3
√
6(36 +
√
1290)
)
≈ 0.69588
74
Seja x∗ = ( 1
24
(
3
√
1728− 48√1290 + 2 3
√
6(36 +
√
1290)
)
,
− 1
3456
(
3
√
1728− 48√1290 + 2 3
√
6(36 +
√
1290)
)3
)t ≈ (0.69588,−1.34794)t.
Temos então que:
∇2f(x∗) =
[
12(x∗1)
2 1
1 2
]
⇒ det(∇2f(x∗)) ≈ 14.70 > 0
∂2f
∂x21
(x∗) = 8.35 > 0
Logo, pelo teste da derivada segunda, x∗ é ponto de mínimo local. Mais
ainda, x∗ também é ponto de mínimo global, pois ∅ 6= R2 é fechado, f
é contínua e f é coerciva em R2.
Para x0 = (0, 0)t, a direção d0 é tal que:
∇2f(x0)d0 = −∇f(x0)[
0 1
1 2
]
d0 =
[
0
−2
]
Logo, d0 = (−2, 0)t. Daí vem que
∇tf(x0)d0 = (0, 2)t(−2, 0)
= 0
Analogamente,
∇tf(x0)(−d0) = (0, 2)t(2, 0)
= 0
75
Portanto, nem d0 e nem −d0 são direções de descida. Isso acontece
pois ∇2f(x0) =
[
0 1
1 2
]
é indeﬁnida (possui um autovalor negativo e
um positivo). Para que d0 fosse direção de descida, seria necessário que
∇2f(x0) fosse deﬁnida positiva, que é o que acontece quando x0 está
próximo da solução (o que não é o caso, pois x0 = (0, 0)t e a solução é
x∗ = (0.69588,−1.34794)t ).
6.13 No método de Newton é necessário que a matriz hessiana seja deﬁnida
positiva. Na prática devemos modiﬁcar o método quando falha essa
hipótese. Uma ideia é tomar
Mk = (∇2f(xk) + µkI)−1, µk > 0,
dk = −Mk∇f(xk).
(a) Quais são os valores aceitáveis de µk para garantir que o método
gere direções de descida?
Observemos que, se f ∈ C2, ∇2f(xk) será simétrica e portantoMk
será simétrica (pois a inversa de uma matriz simétrica é simétrica).
Temos que
dk = −Mk∇f(xk)
−(Mk)−1dk = ∇f(xk)
−(∇2f(xk) + µkI)dk = ∇f(xk)
−(dk)t(∇2f(xk) + µkI)dk = (dk)t∇f(xk)
Portanto, para que dk seja direção de descida, temos que:
(dk)t∇f(xk) < 0
−(dk)t(∇2f(xk) + µkI)dk < 0
(dk)t(∇2f(xk) + µkI)dk > 0
Logo, (Mk)−1 = ∇2f(xk) + µkI precisa ser deﬁnida positiva, i.e.,
todos os seus autovalores precisam ser positivos. Observemos que
somar µkI a ∇2f(xk) aumenta cada autovalor de ∇2f(xk) em
76
µk unidades (pois ∇2f(xk)v = λv ⇐⇒ (∇2f(xk) + µkI)v =
(λ+ µk)v).
Portanto, se λ1 for o menor dos autovalores de ∇2f(xk) e se ε > 0,
então temos que (Mk)−1 = ∇2f(xk) + µkI será deﬁnida positiva
se µk = |λ1|+ ε (para todo ε > 0).
(b) Que método é esse quando µ→∞?
Se µk → ∞, então quando k → ∞ temos Mk = (∇2f(xk) +
µkI)
−1 ≈ (µkI)−1 = 1µk I e portanto dk = −Mk∇f(xk) ≈ − 1µk I∇f(xk).
Assim (pela p. 38 do livro da Ana), assintoticamente esse seria
um método do gradiente �escalado� pelo fator
1
µk
.
6.14 Seja f(x) =
n∑
i=1
(aix
2
i + bixi) com a1, . . . , an e b1, . . . , bn constantes reais.
Encontre condições suﬁcientes para que a direção utilizada pelo método
de Newton esteja bem deﬁnida e seja de descida para qualquer x tal
que ∇f(x) 6= 0.
As derivadas parciais são dadas por:
∂f
∂xi
= 2aixi + bi
∂2f
∂x2i
= 2ai
∂2f
∂xi∂xj
= 0
Logo,∇f(x) = (2a1x1+b1, . . . , 2anxn+bn)t e∇2f(x) = diag(2a1, . . . , 2an).
Como ∇f(x) 6= 0, temos então 2aixi + bi 6= 0 para todo i = 1, . . . , n.
A direção d do método de Newton é tal que:
dt∇2f(x) = −∇tf(x)
−dt∇2f(x)d = ∇tf(x)d
Logo, para que d seja bem deﬁnida (i.e., para que os sistema acima
tenha solução única) e seja de descida, precisamos que:
77
∇tf(x)d < 0
−dt∇2f(x)d < 0
dt∇2f(x)d > 0
Portanto, é suﬁciente que ∇2f(x) = diag(2a1, . . . , 2an) seja deﬁnida
positiva, i.e., todos os seus autovalores sejam positivos. Ser deﬁnida
positiva também assegura que d está bem deﬁnido, pois toda matriz
deﬁnida positiva é não singular. Como ∇2f(x) é diagonal, seus auto-
valores são os próprios elementos da diagonal. Portanto, a condição a
ser satisfeita é:
2ai > 0 ∀i = 1, . . . , n
ai > 0 ∀i = 1, . . . , n
6.15 Prove que A = vvt onde 0 6= v ∈ Rn tem posto 1.
Como cada linha de A = uut é um múltiplo de ut, todas as linhas são
geradas pelo mesmo vetor ut. Logo, a dimensão do espaço gerado pelas
linhas de A é 1 (ou seja, posto(A) = 1).
6.16 Seja 0 6= s ∈ Rn. Prove que
∥∥∥I − sststs∥∥∥ = 1.
Obs.: resposta diferente da do enunciado, mas resolvido
Seja S = sst. Temos que sij = sisj e s
ts =
∑n
k=1 s
2
k. Daí segue que:
78
∥∥∥∥I − sststs
∥∥∥∥ = ∥∥∥∥ 1sts(stsI − sst)
∥∥∥∥
=
∥∥∥∥ 1stsB
∥∥∥∥(
onde bij =
{
−s2i +
∑n
k=1 s
2
k =
∑
k 6=i s
2
k se i = j
−sisj se i 6= j
)
=
1
sts
‖B‖
(supondo que ‖·‖ = ‖·‖F , temos)
=
1
sts
√√√√ n∑
i=1
n∑
j=1
b2ij
=
1
sts
√√√√∑
i 6=j
s2i s
2
j +
n∑
i=1
[−s2i +
n∑
j=1
s2j ]
2
=
1
sts
√√√√ n∑
i=1
n∑
j=1
s2i s
2
j −
n∑
i=1
s2i s
2
i +
n∑
i=1
[s4i − 2s2i
n∑
j=1
s2j + (
n∑
j=1
s2j)
2]
=
1
sts
√√√√√ZZZ
Z
Z
ZZ
n∑
i=1
n∑
j=1
s2i s
2
j −
�
�
�
�n∑
i=1
s4i +
�
�
�
�n∑
i=1
s4i − A2
n∑
i=1
n∑
j=1
s2i s
2
j +
n∑
i=1
(
n∑
j=1
s2j)
2
=
1
sts
√
−‖S‖2F + n(sts)2
Sendo que
79
‖S‖2F =
n∑
i=1
n∑
j=1
s2i s
2
j
=
n∑
i=1
s2i (
n∑
j=1
s2j)
=
n∑
i=1
s2i s
ts
= sts
n∑
i=1
s2i
= stssts
= (sts)2
Logo,
∥∥∥∥I − sststs
∥∥∥∥ = 1sts
√
−‖S‖2F + n(sts)2
=
1
sts
√
−(sts)2 + n(sts)2
=
1
sts
√
(n− 1)(sts)2
=
sts
sts
√
n− 1
=
√
n− 1
6.17 Sejam u, v ∈ Rn e suponha que A ∈ Rn×n é não singular. Seja B =
A + uvt. Se σ = 1 + vtA−1u 6= 0, veriﬁque a fórmula de Sherman-
Morrison:
B−1 = A−1 − 1
σ
A−1uvtA−1.
Para veriﬁcar a fórmula, precisamos veriﬁcar se BB−1 = I. Temos que:
80
BB−1 = (A+ uvt)(A−1 − 1
1 + vtA−1u
A−1uvtA−1)
= AA−1 − A
1 + vtA−1u
A−1uvtA−1 + uvtA−1 − uv
t
1 + vtA−1u
A−1uvtA−1
= I − uv
tA−1
1 + vtA−1u
+ uvtA−1 − uv
tA−1uvtA−1
1 + vtA−1u
= I + uvtA−1 − (uv
tA−1 + uvtA−1uvtA−1)
1 + vtA−1u
= I + uvtA−1 − u(((
(((((1 + vtA−1u)vtA−1
((((
((
1 + vtA−1u
= I +���
�
uvtA−1 −����uvtA−1
= I
Portanto, B−1 é de fato a inversa de B, e a fórmula de Sherman-
Morrison é válida.
6.18 Seja H ∈ Rn×n simétrica deﬁnida positiva e seja {v1, . . . , vn} uma base
ortonormal de autovetores deH com autovalores associados {λ1, . . . , λn}.
Prove que para g =
n∑
i=1
αiv
i
e µ ≥ 0 temos
(H + µI)−1g =
n∑
i=1(
αi
λi + µ
)
vi.
Pelo teorema espectral, se Λ = diag(λ1, . . . , λn) e V = [v
1, . . . , vn] (i.e.,
a i-ésima coluna de V é o autovetor vi ), então temos que:
H =
n∑
i=1
λiv
i(vi)t = V ΛV T
, com V TV = V V T = I (isto é, V −1 = V t, pois os autovetores são
ortonormais). Como Λ é diagonal, temos que Λ−1 = diag(λ−11 , . . . , λ
−1
n )
Pela identidade de matrizes de Woodbury, para matrizes A, U , C and
V de tamanhos apropriados temos:
81
(A+ UCV )−1 = A−1 − A−1U(C−1 + V A−1U)−1V A−1
Usando essa identidade e o teorema espectral, temos que:
(H + µI)−1 = (µI + V ΛV T )−1 (teorema espectral)
= (µI)−1 − (µI)−1V (Λ−1 + V T (µI)−1V )−1V T (µI)−1(identidade de Woodbury)
=
1
µ
I − 1
µ
IV (Λ−1 + V T
1
µ
IV )−1V T
1
µ
I
=
1
µ
I − 1
µ
V (Λ−1 + V T
1
µ
V )−1V T
1
µ
=
1
µ
I − 1
µ
V (Λ−1 +
1
µ
I︸ ︷︷ ︸
B:=
)−1V T
1
µ
=
(
onde bij =
{
1
λi
+ 1
µ
= λi+µ
λiµ
se i = j
0 se i 6= j
)
=
(
logo b−1ij =
{
λiµ
λi+µ
se i = j
0 se i 6= j
)
=
1
µ
I − 1
µ
V B−1V T
1
µ
Sejam A = diag(α1, . . . , αn), e 1 = (1, . . . , 1)
t
. Temos então que:
g =
n∑
i=1
αiv
i = V A1
Daí vem que:
82
(H + µI)−1g = (
1
µ
I − 1
µ
V B−1V T
1
µ
)V A1
= (
1
µ
I − 1
µ2
V B−1V T )V A1
=
1
µ
V A1− 1
µ2
V B−1V TV A1
=
1
µ
V A1− 1
µ2
V B−1A︸ ︷︷ ︸
C:=
1
=
(
onde Cij =
{
αi
λiµ
λi+µ
se i = j
0 se i 6= j
)
=
1
µ
n∑
i=1
αiv
i − 1
µ�2
n∑
i=1
αi
λi�µ
λi + µ
vi
=
n∑
i=1
(
αi
µ
− αiλi
µ(λi + µ)
)vi
=
n∑
i=1
(
αi(λi + µ)− αiλi
µ(λi + µ)
)vi
=
n∑
i=1
(�
��αiλi + αiµ−���αiλi
µ(λi + µ)
)vi
=
n∑
i=1
(
αi�µ
�µ(λi + µ)
)vi
=
n∑
i=1
(
αi
λi + µ
)vi
6.19 Considere a fórmula DFP. Se Hk é deﬁnida positiva mostre que Hk+1
será deﬁnida positiva se o passo λk > 0 é tal que (x
k+1−xk)t(∇f(xk+1)−
∇f(xk)) > 0. Prove que, para uma função quadrática qualquer, λk 6= 0
garante a positividade de Hk+1.
Seja f(x) = 1
2
xtAx+btx+c = 1
2
∑n
i=1
∑n
j=1Aijxixj+
∑n
i=1 bixi+c uma
função quadrática, onde A ∈ Rn×n é deﬁnida positiva,b ∈ Rn , c ∈ R.
Pelo exercício 1.16)b), temos ∇f(x) = Ax+ b e ∇2f(x) = A.
Pela deﬁnição do método DFP (p.p. 40, 41 do livro da Ana), temos
que:
83
dk = −Hk∇f(xk) = −Hk(Axk + b)
pk = x
k+1 − xk = λkdk = −λkHk(Axk + b)
qk = ∇f(xk+1)−∇f(xk) = Axk+1 + ��b− Axk − ��b = A(xk+1 − xk)
Hk+1 = Hk +
pkp
t
k
ptkqk
− Hkqkq
t
kHk
qtkHkqk
Pelo enunciado, temos:
ptkqk > 0
(xk+1 − xk)t(∇f(xk+1)−∇f(xk)) > 0
−(λkHk(Axk + b))tA(xk+1 − xk) > 0
λk(Hk(Ax
k + b))tA(xk+1 − xk) < 0
Se 0 6= d ∈ Rn, pela expressão para Hk+1 temos:
dtHk+1d = d
tHkd+ d
tpkp
t
k
ptkqk
d− dtHkqkq
t
kHk
qtkHkqk
d
= dtHkd+
(dtpk)
2
ptkqk
− (d
tHkqk)
2
qtkHkqk
=
(dtHkd)(q
t
kHkqk)− (dtHkqk)2
qtkHkqk
+
(dtpk)
2
ptkqk
O primeiro termo de dtHk+1d é não negativo pois (d
tHkd)(q
t
kHkqk) −
(dtHkqk)
2 ≥ 0 (pela desigualdade de Cauchy-Schwarz) e qtkHkqk > 0
(pois Hk é deﬁnida positiva).
O segundo termo de dtHk+1d é não negativo pois (d
tpk)
2 ≥ 0 e ptkqk =
(xk+1 − xk)t(∇f(xk+1)−∇f(xk)) > 0 (pelo enunciado). Mais ainda, o
segundo termo é positivo pois:
84
dtpk = d
t(−λkHk(Axk + b))
= −λkdtHk(Axk + b)
6= 0
, pois λk 6= 0, ∇f(xk) = Axk+b 6= 0 (pois essa é a condição para iniciar
uma iteração do DFP a partir de xk) e d 6= 0.
Logo, como dtHk+1d > 0 para todo d 6= 0 (já que o primeiro termo é
não negativo e o segundo é positivo), então Hk+1 é deﬁnida positiva.
6.20 Considere o problema de minimizar uma função f : Rn → R, f ∈ C2,
cuja matriz hessiana tem a forma ∇2f(xk) = I +F k, onde I é a matriz
identidade e F k é uma matriz esparsa com
∥∥F k∥∥ < 1. Sabe-se que para
‖A‖ < 1 vale a igualdade
(I + A)−1 = I − A+ A2 − A3 + · · ·
(a) Veriﬁque a aﬁrmação acima;
Observemos que:
(I + A)(I − A+ A2 − . . .+ A2n) = I(((((((
((((−A+ A2 − . . .+ A2n
((((
((((
(((
+A− A2 + . . .− A2n + A2n+1
= I + A2n+1
Além disso, lim
n→∞
A2n+1 = 0, já que lim
n→∞
‖A2n+1 − 0‖ = 0 (pois
‖A‖ < 1).
Como I − A+ A2 − . . . converge para ‖A‖ < 1, segue então que:
lim
n→∞
(I + A)(I − A+ A2 − . . .+ A2n) = lim
n→∞
I + A2n+1
(I + A)(I − A+ A2 − A3 + · · · ) = I
⇒
(I + A)−1 = I − A+ A2 − A3 + · · ·
85
(b) Descreva como utilizar um método quase-Newton de maneira eﬁ-
ciente.
No contexto do enunciado, pelo método de Newton a direção dk é
dada por:
dk = −(∇2f(xk))−1∇f(xk)
dk = −(I + F k)−1∇f(xk)
Assim, em um método quase Newton utilizaríamos o resultado do
item a) para aproximar (I + F k)−1 da seguinte forma:
(I + F k)−1 = I − F k + (F k)2 − (F k)3 + · · ·
(F k esparsa com
∥∥F k∥∥ < 1⇒ ∥∥(F k)2∥∥ ≈ 0,∥∥(F k)3∥∥ ≈ 0, · · · )
≈ I − F k
Portanto, a direção dk dada por um método quase Newton (su-
pondo (I − F k) deﬁnida positiva ) seria:
dk = − (I − F k)︸ ︷︷ ︸
Hk:=
∇f(xk)
O resto do algoritmo seria dado como no algoritmo 6.3 (p. 40 do
livro da Ana).
6.21 Aplique o método DFP com busca linear exata para minimizar a função
f(x) = 10x21 + x
2
2 =
1
2
xtAx (com A =
[
20 0
0 2
]
) a partir de x0 =
(0.1, 1)t com H0 = I. Veriﬁque a propriedade de terminação em n
passos para funções quadráticas, onde n é a dimensão do problema.
Temos que ∇f(x) = (20x1, 2x2)t.
Pelo algoritmo 6.4 (DFP, p. 40 do livro do Ana), as iterações são dadas
por:
86
1.i calcular dk = −Hk∇f(xk) .
d0 = −H0∇f(x0)
= −I∇f((0.1, 1)t)
= −(20× 0.1, 2× 1)t
= −(2, 2)t
1.ii Determinar λk e deﬁnir x
k+1 = xk + λkdk .
Seja φ0(λ) = f(x
0 + λd0) = f((0.1− 2λ, 1− 2λ)t). Temos que:
φ0(λ) = 10(0.1− 2λ)2 + (1− 2λ)2
= 44λ2 − 8λ+ 1.1
O ponto de mínimo de φ0(λ) é λ0 = − (−8)2×44 = 111 . Portanto,
x1 = x0 + λ0d0
= (0.1, 1)t +
1
11
(−2,−2)t
= (− 9
110
,
9
11
)t
1.iii Deﬁnir pk = λkdk = x
k+1−xk, qk = ∇f(xk+1)−∇f(xk) , e calcular
Hk+1 = Hk +
pkp
t
k
ptkqk
− HkqkqtkHk
qtkHkqk
.
Temos que:
p0 = λ0d0 = (− 2
11
,− 2
11
)t
q0 = ∇f(x1)−∇f(x0)
= (−18
11
,
18
11
)t − (2, 2)t
= (−40
11
,
4
11
)t
87
Logo,
H1 = H0 +
p0p
t
0
pt0q0
− H0q0q
t
0H0
qt0H0q0
= I +
p0p
t
0
pt0q0
− q0q
t
0
qt0q0
= I +
[
4
121
4
121
4
121
4
121
]
72
121
−
[
1600
121
−160
121−160
121
16
121
]
1616
121
= I +
[
1
18
1
18
1
18
1
18
]
−
[
100
101
−10
101−10
101
1
101
]
=
[
119
1818
281
1818
281
1818
1901
1818
]
2.i calcular dk = −Hk∇f(xk) .
d1 = −H1∇f(x1)
= −
[
119
1818
281
1818
281
1818
1901
1818
]
∇f((− 9
110
,
9
11
)t)
= −
[
119
1818
281
1818
281
1818
1901
1818
]
(−18
11
,
18
11
)t
= (− 162
1111
,−1620
1111
)t
2.ii Determinar λk e deﬁnir x
k+1 = xk + λkdk .
Seja φ1(λ) = f(x
1 + λd1) = f((− 9110 − λ 1621111 , 911 − λ16201111)t). Temos
que:
φ1(λ) = 10(− 9
110
− λ 162
1111
)2 + (
9
11
− λ1620
1111
)2
=
262440
112211
λ2 − 26244
12221
λ+
81
100
O ponto de mínimo de φ1(λ) é λ1 = − (−
26244
12221
)
2× 262440
112211
= 101
220
. Portanto,
88
x2 = x1 + λ1d1
= (− 9
110
,
9
11
)t +
101
220
(− 162
1111
,−1620
1111
)t
= (− 18
121
,
18
121
)t
2.iii Deﬁnir pk = λkdk = x
k+1−xk, qk = ∇f(xk+1)−∇f(xk) , e calcular
Hk+1 = Hk +
pkp
t
k
ptkqk
− HkqkqtkHk
qtkHkqk
.
Temos que:
p1 = λ1d1 = (− 81
1210
,− 81
121
)t
q1 = ∇f(x2)−∇f(x1)
= (−360
121
,
36
121
)t − (−18
11
,
18
11
)t
= (−162
121
,−162
121
)t
Logo,
H2 = H1 +
p1p
t
1
pt1q1
− H1q1qt
1H1
qt1H1q1
=
[
119
1818
281
1818
281
1818
1901
1818
]
+
[
6561
1464100
6561
146410
6561
146410
6561
14641
]
6561
6655
−
324
149352841
[
40000 218200
218200 1190281
]
3764556
1478741
=
[
119
1818
281
1818
281
1818
1901
1818
]
+
[
1
220
1
22
1
22
5
11
]
− 1
1173519
[
40000 218200
218200 1190281
]
=
[
10201
284020
200
14201
200
14201
13801
28402
]
3.i calcular dk = −Hk∇f(xk) .
89
d2 = −H2∇f(x2)
= −
[
10201
284020
200
14201
200
14201
13801
28402
]
∇f((− 18
121
,
18
121
)t)
= −
[
10201
284020
200
14201
200
14201
13801
28402
]
(−360
121
,
36
121
)t
= (
1458
14201
,− 1458
14201
)t
3.ii Determinar λk e deﬁnir x
k+1 = xk + λkdk .
Seja φ2(λ) = f(x
2+λd2) = f((− 18121+λ 145814201 , 18121−λ 145814201)t). Temos
que:
φ1(λ) = 10(− 18
121
+ λ
1458
14201
)2 + (
18
121
− λ 1458
14201
)2
=
2125764
18333491
λ2 − 52488
156211
λ+
324
1331
O ponto de mínimo de φ2(λ) é λ2 = − (−
52488
156211
)
2× 2125764
18333491
= 1291
891
. Portanto,
x3 = x2 + λ2d2
= (− 18
121
,
18
121
)t +
1291
891
(
1458
14201
,− 1458
14201
)t
= (0, 0)t
Como ∇f(x3) = (0, 0), temos que x3 = x∗ e o algoritmo termina.
De fato, como f(x) = 10x21 + x
2
2 ≥ 0 para todo x ∈ R2, temos que
x3 = x∗ = (0, 0)t é mesmo o minimizador de f .
Obs.: a veriﬁcação a seguir foi baseada no teorema 5.1.7 (p.215) do
livro Optimization Theory and Methods: Nonlinear Programming (Sun
e Yuan, 2006)
Como f(x) é quadrática, f(x) = 1
2
xtGx+btx+c (ondeG ∈ Rn×n simétrica, b ∈
Rn, c ∈ R). Pelo exercício 1.16)b), temos que ∇f(x) = Gx + b e
90
∇2f(x) = G (para G deﬁnida positiva). Supondo que seja usado o
método DFP com busca linear exata (como na p. 40 do livro da Ana,
algoritmo 6.4) , seja {pj} = {xj+1−xj} a sequência gerada pelo método
DFP. Para i = 0, . . . ,m (onde m ≤ n− 1), provemos que:
(a) Hi+1qj = pj, j = 0, . . . , i.
(b) ptiGpj = 0, j = 0, . . . , i− 1.
Provemos (a) e (b) (simultaneamente) por indução em i. Base:
valem para i = 0. Hipótese de indução: suponhamos que valham
para 0 ≤ j ≤ i.
Passo de indução: provemos que valem para i+1. Como∇f(xi+1) =
Gxi+1+b 6= 0 (por busca linear exata), temos que qk = ∇f(xk+1)−
∇f(xk) = G(xk+1 − xk) = Gpk. Pela hipótese de indução, para
j ≤ i temos:
∇tf(xi+1)pj = ∇tf(xi+1)pj +
i∑
k=j+1
(∇f(xk+1)−∇f(xk))tpj
= ∇tf(xi+1)pj +
i∑
k=j+1
qtkpj
= 0 +
i∑
k=j+1
(Gpk)
tpj
=
i∑
k=j+1
ptkGpj
= 0
Portanto, utilizando que pi+1 = λi+1di+1 = −λi+1Hi+1∇f(xi+1),
a hipótese de indução para (a) e ∇tf(xi+1)pj = 0, segue que
pti+1Gpj = (−λi+1Hi+1∇f(xi+1))tGpj
= −λi+1∇tf(xi+1)Hi+1qj
= −λi+1∇tf(xi+1)pj
= −λi+10
= 0
91
, o que prova que (b) vale para i+ 1. Provemos agora que (a) vale
para i+ 1.
Quando j = i + 1, a parte (a) vale para i + 1 pois, pela equação
de atualização do DFP, temos que
Hi+2qi+1 = pi+1(∗)
Quando j ≤ i, de (b) e da hipótese de indução para a temos:
pti+1qj = p
t
i+1Gpi = 0
qti+1Hi+1qj = q
t
i+1pj = p
t
i+1Gpj = 0
Logo, pela equação de atualização do DFP,
Hi+2qj = Hi+1qj +
pi+1��
��*
0
pti+1qj
pti+1qi+1
− Hi+1qi+1���
���:
0
qti+1Hi+1qj
qti+1Hi+1qi+1
= Hi+1qj
= pj(∗∗)
De (*) e (**) segue que (a) vale para i+ 1, isto é:
Hi+2qj = pj, j = 0, . . . , i+ 1
(c) {p0, p1, . . . , pm} são linearmente independentes.
Por contradição, se o conjunto for linearmente dependente, exis-
tem α0, α1, . . . , αm (não todos nulos) tais que α0p0+ . . .+αmpm =
0. Daí segue que, para todo i = 0, . . . ,m, αip
t
iGpi = 0. Como
G é deﬁnida positiva, ptiGpi > 0, e portanto αi = 0 para todo
i = 0, . . . ,m. Isso é uma contradição com o fato de que os αi
não são todos nulos. Logo, {p0, p1, . . . , pm} é linearmente inde-
pendente.
92
(d) O método termina em m + 1 ≤ n passos. Se m = n − 1, então
Hn = G
−1
Como {p0, p1, . . . , pm} são direções conjugadas (i.e., ptiGpj = 0, j =
0, . . . , i − 1), esse é um tipo de método de direções conjugadas e
portanto irá acabar em m (≤ n) passos usndo busca linear exata.
Quando m = n− 1, como {p0, p1, . . . , pn−1} são linearmente inde-
pendentes, do item (a) segue que:
HnGpj = Hnqj
= pj , j = 0, . . . , n− 1
⇒
Hn = G
−1
Pelas observações na página 40 do livro da Ana, temos então que:
dn = −G−1(∇f(xn))
= −(∇2f(xn))−1(∇f(xn))
Ou seja, dn é a própria direção de Newton. Logo, como o mé-
todo de Newton para quadráticas com hessiana deﬁnida positiva
encontra x∗ (a solução ótima) a partir de qualquer ponto em Rn
em uma iteração (p. 39 do livro da Ana) , teremos que xn+1 = x∗.
6.22 Considere o método quase-Newton com correção de posto 1
Hk+1 = Hk +
(p−Hkq)(p−Hkq)t
qt(p−Hkq) ,
onde p = xk+1 − xk e q = ∇f(xk+1) −∇f(xk). Sobre que condições a
correção acima pode ser utilizada?
Suponhamos que Hk seja simétrica deﬁnida positiva. Para que a dire-
ção dk+1 = −Hk+1∇f(xk+1) seja de descida, precisamos que Hk+1 seja
deﬁnida positiva (p. 39 do livro da Ana).
Se 0 6= d ∈ Rn, pela expressão para Hk temos:
93
dtHk+1d = dtHkd+ dt
(p−Hkq)(p−Hkq)t
qt(p−Hkq) d
= dtHkd+
[dt(p−Hkq)]2
qt(p−Hkq)
Como Hk é deﬁnida positiva, o primeiro termo (dtHkd) é positivo.
Logo, para que Hk+1 seja deﬁnida positiva, é suﬁciente que o segundo
termo seja não negativo.
Como [dt(p−Hkq)]2 ≥ 0, para que o segundo termo seja não negativo
é suﬁcente que o denominador seja maior que 0, isto é:
qt(p−Hkq) > 0
(∇f(xk+1)−∇f(xk))t(xk+1 − xk −Hk[∇f(xk+1)−∇f(xk)]) > 0
(∇f(xk+1)−∇f(xk))t(xk+1 − xk)− (∇f(xk+1)−∇f(xk))tHk[∇f(xk+1)−∇f(xk)] > 0
qtp > qtHkq > 0
6.23 Seja f : Rn → R, f ∈ C1. Considere o método quase-Newton deﬁnido
por xk+1 = xk −B−1k ∇f(xk), onde a fórmula de recorrência para as Bk
é
Bk+1 = Bk +
yyt
ytp
,
y = q−Bkp, q = ∇f(xk+1)−∇f(xk) e p = xk+1−xk. Se z = p−B−1k q,
mostre que se Bk+1 é inversível então B
−1
k+1 = B
−1
k +
zzt
ztq
.
Como se trata de um método quase-Newton, consideremos também que
Bk seja simétrica (logo, também é deﬁnida positiva, pois uma matriz
simétrica é inversível ⇐⇒ for deﬁnida positiva). Sejam u = y√
ytp
e
v = y√
ytp
. Temos então que:
94
B−1k+1 = (Bk +
yyt
ytp
)−1
= (Bk + uv
t)−1
(pela fórmula de Sherman-Morrison)
= B−1k −
B−1k uv
tB−1k
1 + vtB−1k u
= B−1k −
B−1k
y√
ytp
yt√
ytp
B−1k
1 + y
t√
ytp
B−1k
y√
ytp
= B−1k −
B−1k yy
tB−1k
��ytp
ytp+ytB−1k y
��ytp
= B−1k −
B−1k yy
tB−1k
ytp+ ytB−1k y
Portanto, para provar o resultado do enunciado, basta que:
− B
−1
k yy
tB−1k
ytp+ ytB−1k y
=
zzt
ztq
− B
−1
k (q −Bkp)(q −Bkp)tB−1k
(q −Bkp)tp+ (q −Bkp)tB−1k (q −Bkp)
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
− (B
−1
k q − p)(qtB−1k − pt)
(q −Bkp)tp+ (qtB−1k − pt)(q −Bkp)
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
−[(p−B−1k q)(p−B−1k q)t]
−[(Bkp− q)tp+ (pt − qtB−1k )(q −Bkp)]
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
(p−B−1k q)(p−B−1k q)t
(Bkp− q)tp+ (p−B−1k q)tq − (p−B−1k q)tBkp
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
(p−B−1k q)(p−B−1k q)t
���
����(Bkp− q)tp+ (p−B−1k q)tq −�����
��
(Bkp− q)tp
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
=
(p−B−1k q)(p−B−1k q)t
(p−B−1k q)tq
0 = 0
95
Portanto, B−1k+1 = B
−1
k +
zzt
ztq
.
6.24 Considere o espaço Q(u, v) = {A ∈ Rn×n | Au = v}. Prove que Q(u, v)
é uma variedade aﬁm. Qual é a sua dimensão? Idem para Q¯(u, v) =
{A ∈ Q(u, v) | A = At}. Seja F (x) = Gx+ b com G ∈ Rn×n e b ∈ Rn.
Prove que, para quaisquer x, y ∈ Rn, G ∈ Q(y − x, F (y)− F (x)).
parcialmente resolvido (faltou calcular as dimensões)
Deﬁnição 1 (variedade aﬁm): Seja U um espaço aﬁmassociado ao
espaço vetorial V . Um subconjunto não vazio P de U é uma variedade
aﬁm se para algum A ∈ P o subespaço diretor SA(P ) := {AB | B ∈ P}
for um subespaço vetorial de V .
Observação: Se P é uma variedade aﬁm, então SA(P ) = SB(P ) para
todos A,B ∈ P . Logo, o subespaço diretor de P também será denotado
por S(P )
Deﬁnição alternativa (variedade aﬁm): Seja V um espaço vetorial.
A ⊂ V é uma variedade aﬁm se, ∀u, v ∈ A, temos que (1− t)u+ tv ∈ A
para todo t ∈ R.
Deﬁnição 2 (dimensão de uma variedade aﬁm): Se P for uma varie-
dade aﬁm cujo subespaço diretor S(P ) tenha dimensão n, diremos que
P é uma variedade aﬁm de dimensão n.
Sejam A,B ∈ Q(u, v) e t ∈ R. Temos que:
((1− t)A+ tB)u = (1− t)Au+ tBu
= (1− t)v + tv
= v
Logo, (1 − t)A + tB ∈ Q(u, v) para todo t ∈ R, e portanto Q(u, v) é
uma variedade aﬁm (pela deﬁnição alternativa).
Sejam A,B ∈ Q¯(u, v) e t ∈ R. Temos que:
((1− t)A+ tB)t = (1− t)At + tBt
= (1− t)A+ tB
Logo, (1 − t)A + tB ∈ Q¯(u, v) para todo t ∈ R, e portanto Q¯(u, v) é
uma variedade aﬁm (pela deﬁnição alternativa).
96
Sejam agora x, y ∈ Rn. Temos que:
G(y − x) = Gy −Gx
= [F (y)− b]− [F (x)− b]
= F (y)− ��b− F (x) + ��b
= F (y)− F (x)
Logo, G ∈ Q(y − x, F (y)− F (x)).
1.7 Capítulo 7 - Minimização com restrições lineares de
igualdade
7.1 Os problemas abaixo consistem em minimizar f sujeita a Ax = b onde
A ∈ Rm×n e b ∈ Rm. Para cada um deles:
(i) Encontre uma base de Nu(A)
(ii) Construa uma parametrização que caracterize o conjunto factível
(iii) Transforme o problema em outro equivalente sem restrições
(iv) Escreva as condições de primeira e segunda ordem para os dois
problemas equivalentes
(a) Minimizar f(x) = x21+x
2
2+x
2
3−2x1x2 s.a. 2x1+x2 = 4, 5x1−x3 = 8
(a.i) Encontre uma base de Nu(A)
Nesse caso, temos que A =
[
2 1 0
5 0 −1
]
e b =
[
4
8
]
.
Pelo sistema Ax = 0, temos então que:{
2x1 + x2 = 0
5x1 − x3 = 0
⇒
{
x2 = −2x1
x3 = 5x1
Portanto, se d ∈ Nu(A), então
d = (x1,−2x1, 5x1)t
= x1(1,−2, 5)t
Logo, {(1,−2, 5)t} é uma base deNu(A). Seja Z = (1,−2, 5)t.
97
(a.ii) Construa uma parametrização que caracterize o conjunto fac-
tível
Seja x˜ tal que Ax˜ = b. Temos que:{
2x˜1 + x˜2 = 4
5x˜1 − x˜3 = 8
⇒
{
x˜2 = 4− 2x˜1
x˜3 = 5x˜1 − 8
Deﬁnindo x˜1 = 0, temos então que x˜ = (0, 4,−8)t é uma
solução factível. Portanto, o conjunto factível S é:
S = {x ∈ R3 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R3 | x = (0, 4,−8)t + (1,−2, 5)tγ, γ ∈ R}
= {x ∈ R3 | x = (γ, 4− 2γ,−8 + 5γ)t, γ ∈ R}
= {(γ, 4− 2γ,−8 + 5γ)t | γ ∈ R}
(a.iii) Transforme o problema em outro equivalente sem restrições
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ +
Zγ), que é dada por:
ϕ(γ) = f(x˜+ Zγ)
= f((γ, 4− 2γ,−8 + 5γ)t)
= γ2 + (4− 2γ)2 + (−8 + 5γ)2 − 2(γ)(4− 2γ)
= 34γ2 − 104γ + 80
(a.iv) Escreva as condições de primeira e segunda ordem para os
dois problemas equivalentes
Primeiramente, o gradiente de f(x1, x2, x3) = x
2
1 + x
2
2 + x
2
3 −
2x1x2 é dado por:
∇f(x) = ( ∂f
∂x1
,
∂f
∂x2
,
∂f
∂x3
)t
= (2(x1 − x2), 2(x2 − x1), 2x3)t
= 2((x1 − x2), (x2 − x1), x3)t
Além disso, a hessiana de f é dada por:
98
∇2f(x) =

∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x3
∂2f
∂x1∂x2
∂2f
∂x22
∂2f
∂x2∂x3
∂2f
∂x1∂x3
∂2f
∂x2∂x3
∂2f
∂x23

=
 2 −2 0−2 2 0
0 0 2

Portanto, as condições (necessárias) de otimalidade para o
problema com restrições são:
Ax∗ = b
Zt∇f(x∗) = 0
Zt∇2f(x∗)Z ≥ 0 (semideﬁnida positiva)
⇒

[
2 1 0
5 0 −1
] x∗1x∗2
x∗3
 = [ 4
8
]
(1,−2, 5)2((x∗1 − x∗2), (x∗2 − x∗1), x∗3)t = 0
(1,−2, 5)
 2 −2 0−2 2 0
0 0 2
 (1,−2, 5)t ≥ 0
⇒

x∗2 = 4− 2x∗1
x∗3 = 5x
∗
1 − 8
2(3x∗1 − 3x∗2 + 5x∗3) = 0
68 ≥ 0
⇒

x∗2 = 4− 2x∗1
x∗3 = 5x
∗
1 − 8
3x∗1 = 3x
∗
2 − 5x3 = 3(4− 2x∗1)− 5(5x∗1 − 8)
68 ≥ 0
⇒

x∗2 =
16
17
x∗3 = − 617
x∗1 =
26
17
68 ≥ 0
Relembrando, temos que ϕ(γ) = 34γ2 − 104γ + 80 e x∗ =
x˜+ Zγ∗ = (γ∗, 4− 2γ∗,−8 + 5γ∗)t.
99
As condições (necessárias) de otimalidade para o problema
(equivalente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) ≥ 0 ⇒
{
68γ∗ − 104 = 0
68 ≥ 0 ⇒
{
γ∗ = 26
17
68 ≥ 0
Portanto, temos que x∗ = (γ∗, 4−2γ∗,−8+5γ∗)t = (26
17
, 16
17
,− 6
17
)t
Logo, como os problemas são equivalentes, as condições de
otimalidade também são (como esperado).
(b) Minimizar f(x) = x21 + 2x
2
2 − 2x1 − 2x1x2 s.a. 2x1 + x2 = 1.
(b.i) Encontre uma base de Nu(A)
Nesse caso, temos que A =
[
2 1
]
e b = 1.
Pelo sistema Ax = 0, temos então que:{
2x1 + x2 = 0 ⇒
{
x2 = −2x1
Portanto, se d ∈ Nu(A), então
d = (x1,−2x1)t
= x1(1,−2)t
Logo, {(1,−2)t} é uma base de Nu(A). Seja Z = (1,−2)t.
(b.ii) Construa uma parametrização que caracterize o conjunto fac-
tível
Seja x˜ tal que Ax˜ = b. Temos que:{
2x˜1 + x˜2 = 1 ⇒
{
x˜2 = 1− 2x˜1
Deﬁnindo x˜1 = 0, temos então que x˜ = (0, 1)
t
é uma solução
factível. Portanto, o conjunto factível S é:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (0, 1)t + (1,−2)tγ, γ ∈ R}
= {x ∈ R2 | x = (γ, 1− 2γ)t, γ ∈ R}
= {(γ, 1− 2γ)t | γ ∈ R}
(b.iii) Transforme o problema em outro equivalente sem restrições
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ +
Zγ), que é dada por:
100
ϕ(γ) = f(x˜+ Zγ)
= f((γ, 1− 2γ)t)
= γ2 + 2(1− 2γ)2 − 2γ − 2γ(1− 2γ)
= 13γ2 − 12γ + 2
(b.iv) Escreva as condições de primeira e segunda ordem para os
dois problemas equivalentes
Primeiramente, o gradiente de f(x1, x2) = x
2
1 + 2x
2
2 − 2x1 −
2x1x2 é dado por:
∇f(x) = ( ∂f
∂x1
,
∂f
∂x2
)t
= (2(x1 − x2)− 2, 2(2x2 − x1))t
Além disso, a hessiana de f é dada por:
∇2f(x) =
[
∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x2
∂2f
∂x22
]
=
[
2 −2
−2 4
]
Portanto, as condições (necessárias) de otimalidade para o
problema com restrições são:
Ax∗ = b
Zt∇f(x∗) = 0
Zt∇2f(x∗)Z ≥ 0 (semideﬁnida positiva)
⇒

[
2 1
] [ x∗1
x∗2
]
= 1
(1,−2)(2(x1 − x2)− 2, 2(2x2 − x1))t = 0
(1,−2)
[
2 −2
−2 4
]
(1,−2)t ≥ 0
⇒
101

2x∗1 + x
∗
2 = 1
6x∗1 − 10x∗2 = 2
26 ≥ 0
⇒

x∗2 = 1− 2x∗1
x∗1 =
6
13
26 ≥ 0
⇒

x∗2 =
1
13
x∗1 =
6
13
26 ≥ 0
Relembrando, temos que ϕ(γ) = 13γ2 − 12γ + 2 e x∗ = x˜ +
Zγ∗ = (γ∗, 1− 2γ∗)t.
As condições (necessárias) de otimalidade para o problema
(equivalente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) ≥ 0 ⇒
{
26γ∗ − 12 = 0
26 ≥ 0 ⇒
{
γ∗ = 6
13
26 ≥ 0
Portanto, temos que x∗ = (γ∗, 1− 2γ∗)t = ( 6
13
, 1
13
)t
Logo, como os problemas são equivalentes, as condições de
otimalidade também são (como esperado).
7.2 Considere a função f(x, y) = xy
(a) Analise os pontos estacionários do problema: minimizar f(x, y)
sem restrições
Os pontos estacionários são dados por:
∇f(x, y) = 0
(
∂f
∂x
,
∂f
∂y
)t = 0
(y, x)t = 0
Logo, (0, 0) é o único ponto estacionário.
Além disso, a hessiana de f é dada por:
102
∇2f(x) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
0 1
1 0
]
Como os autovalores de ∇2f(x) são λ1 = −1 e λ2 = 1, a matriz é
indeﬁnida. Em particular, não é semideﬁnida positiva, e portanto
a função não possui mínimo global. Também em particular, como
∇2f((0, 0)t) é indeﬁnida e (0, 0)t é estacionário, segue que (0, 0)t
é ponto de sela.
(b) Acrescente a restrição x + y = 0. Analise as condições de otima-
lidade de primeira e segunda ordem
Nesse caso, temos que A =
[
1 1
]
e b = 0.
Pelo sistema Ax = 0, temos então que:{
x+ y = 0 ⇒
{
y = −x
Portanto, se d ∈ Nu(A), então
d = (x,−x)t
= x(1,−1)t
Logo, {(1,−1)t} é uma base de Nu(A). Seja Z = (1,−1)t.
Além disso, temos que x˜ = (0, 0)t é uma soluçãofactível. Portanto,
o conjunto factível S é:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (0, 0)t + (1,−1)tγ, γ ∈ R}
= {x ∈ R2 | x = (γ,−γ)t, γ ∈ R}
= {(γ,−γ)t | γ ∈ R}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜+Zγ),
que é dada por:
103
ϕ(γ) = f(x˜+ Zγ)
= f((γ,−γ)t)
= −γ2
As condições (necessárias) de otimalidade para o problema (equi-
valente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) ≥ 0 ⇒
{
−2γ∗ = 0
−2 ≥ 0 ⇒
{
γ∗ = 0
−2 ≥ 0
Portanto, temos que x∗ = (γ∗,−γ∗)t = (0, 0)t é estacionário, mas
que não satisfaz a condição necessária de otimalidade (pois −2 ≥
0). De fato, como ∇2ϕ(γ) = −2 < 0 para todo γ ∈ R, temos que
esse problema não possui mínimo global.
(c) Resolva (b) para a restrição x− y = 0
Nesse caso, temos que A =
[
1 −1 ] e b = 0.
Pelo sistema Ax = 0, temos então que:{
x− y = 0 ⇒
{
y = x
Portanto, se d ∈ Nu(A), então
d = (x, x)t
= x(1, 1)t
Logo, {(1, 1)t} é uma base de Nu(A). Seja Z = (1, 1)t.
Além disso, temos que x˜ = (0, 0)t é uma solução factível. Portanto,
o conjunto factível S é:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (0, 0)t + (1, 1)tγ, γ ∈ R}
= {x ∈ R2 | x = (γ, γ)t, γ ∈ R}
= {(γ, γ)t | γ ∈ R}
104
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜+Zγ),
que é dada por:
ϕ(γ) = f(x˜+ Zγ)
= f((γ, γ)t)
= γ2
As condições (necessárias) de otimalidade para o problema (equi-
valente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) ≥ 0 ⇒
{
2γ∗ = 0
2 ≥ 0 ⇒
{
γ∗ = 0
2 ≥ 0
Portanto, temos que x∗ = (γ∗, γ∗)t = (0, 0)t satisfaz as condições
necessárias (mais especiﬁcamente, as suﬁcientes) de otimalidade.
Logo, x∗ = (0, 0)t é o minimizador global de f sujeita a x− y = 0.
(d) Analise (a), (b) e (c). Que conclusões podem ser tiradas?
No item a), percebemos que o único ponto estacionário de f ,
x∗ = (0, 0)t, não é um minimizador global (e sim um ponto de
sela). No item b), percebemos que a superfície que faz f não ter
minimizadores globais é justamente a dada por x + y = 0. No
item c), percebemos que f teria um minimizador global se ﬁcasse
restrita apenas a x− y = 0 .
Logo, podemos perceber que as restrições (mesmo que sejam ape-
nas lineares) podem alterar totalmente as características do pro-
blema (mesmo analisando a mesma função objetivo).
7.3 Encontre o ponto sobre o plano x+2y+2z = 4 cuja distância à origem
é mínima.
Esse problema equivale a minimizar a função f(x, y, z) = x2 + y2 + z2
(quadrado da distância de (x, y, z)t à origem) sob a restrição x+ 2y +
2z = 4.
Nesse caso, temos que A =
[
1 2 2
]
e b = 4.
Pelo sistema Ax = 0, temos então que:{
x+ 2y + 2z = 0 ⇒
{
x = −2y − 2z
Portanto, se d ∈ Nu(A), então:
105
d = (−2y − 2z, y, z)t
= y(−2, 1, 0)t + z(−2, 0, 1)t
Logo, {(−2, 1, 0)t, (−2, 0, 1)t} é uma base deNu(A). Seja Z =
 −2 −21 0
0 1

.
Seja (x˜, y˜, z˜)t tal que A(x˜, y˜, z˜)t = b. Temos que:{
x˜+ 2y˜ + 2z˜ = 4 ⇒
{
x˜ = 4− 2y˜ − 2z˜
Deﬁnindo y˜ = z˜ = 0, temos então que (x˜, y˜, z˜)t = (4, 0, 0)t é uma
solução factível. Portanto, o conjunto factível S é:
S = {(x, y, z) ∈ R3 | (x, y, z) = (x˜, y˜, z˜)t + Zγ, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (4, 0, 0)t +
 −2 −21 0
0 1
[ γ1
γ2
]
, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (4, 0, 0)t + (−2γ1 − 2γ2, γ1, γ2)t, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (4− 2γ1 − 2γ2, γ1, γ2)t, γ ∈ R2}
= {(4− 2γ1 − 2γ2, γ1, γ2)t | γ ∈ R2}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ + Zγ), que
é dada por:
ϕ(γ) = f(x˜+ Zγ)
= f((4− 2γ1 − 2γ2, γ1, γ2)t)
= (4− 2γ1 − 2γ2)2 + (γ1)2 + (γ2)2
= 5γ21 + 8γ1γ2 − 16γ1 + 5γ22 − 16γ2 + 16
Primeiramente, o gradiente de ϕ é dado por:
106
∇ϕ(γ) = ( ∂ϕ
∂γ1
,
∂ϕ
∂γ2
)t
= (10γ1 + 8γ2 − 16, 8γ1 + 10γ2 − 16)t
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) =
[
∂2ϕ
∂γ21
∂2ϕ
∂γ1∂γ2
∂2ϕ
∂γ1∂γ2
∂2ϕ
∂γ22
]
=
[
10 8
8 10
]
Os autovalores de ∇2ϕ(γ) são ambos positivos (λ1 = 18, λ2 = 2),e
portanto ∇2ϕ(γ) é deﬁnida positiva.
As condições (suﬁcientes) de otimalidade para o problema (equivalente)
sem restrições são:
{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) > 0 ⇒

2(5γ∗1 + 4γ
∗
2 − 8) = 0
2(8γ∗1 + 10γ
∗
2 − 16) = 0[
10 8
8 10
]
> 0
⇒

γ∗1 =
8
9
γ∗2 =
8
9[
10 8
8 10
]
> 0
Portanto, temos que x∗ = (4− 2γ1 − 2γ2, γ∗1 , γ∗2)t = (49 , 89 , 89)t é o mini-
mizador de f .
7.4 Seja f(x) = ‖x‖ , x ∈ Rn. Considere o problema de minimizar f sujeita
a Ax = b com A ∈ Rm×n, b ∈ Rm,m < n e posto(A) = m. Prove que a
solução x¯ desse problema pode ser escrita como x¯ = A¯b onde A¯ ∈ Rn×m
e AA¯ = I.
Considerando ‖·‖ = ‖·‖2, então esse problema é a generalização do
exercício 7.3, e é equivalente a minimizar f(x) = 1
2
‖x‖22 = 12
n∑
i=1
x2i
sujeita a Ax = b com A ∈ Rm×n, b ∈ Rm,m < n e posto(A) = m.
Como posto(A) = m, então a dimensão de Nu(A) é n−m (pelo exercí-
cio 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal deNu(A)
107
(encontrada a partir de uma base qualquer de Nu(A) via processo de
Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz cujas colunas são os veto-
res zi.
Seja x˜ tal que Ax˜ = b. Logo, o conjunto factível é S = {x ∈ Rn | x =
x˜+ Zγ, γ ∈ Rn−m}.
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ + Zγ), que
é dada por:
ϕ(γ) = f(x˜+ Zγ)
=
1
2
‖x˜+ Zγ‖22
Primeiramente, pela regra da cadeia o gradiente de ϕ é dado por:
∇ϕ(γ) = Zt∇f(x˜+ Zγ)
= 2
1
2
Zt(x˜+ Zγ) (pois ∇‖x‖22 = 2x)
= Zt(x˜+ Zγ)
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) = Zt∇2f(x˜+ Zγ)Z
= Zt diag(1, . . . , 1)Z (onde diag(1, . . . , 1) ∈ Rn×n)
Logo, Zt diag(1, . . . , 1)Z é uma decomposição espectral de ∇2ϕ(γ), o
que implica que todos os seus autovalores são positivos (e iguais a 1)
para todo γ ∈ Rn−m. Logo ∇2ϕ(γ) é deﬁnida positiva (para todo
γ ∈ Rn−m).
Ainda, se x∗ é um minimizador local, então existe λ∗ ∈ Rm tal que
(x∗, λ∗) é solução do seguinte sistema (pela condição de primeira ordem
da p.51 do livro da Ana):
108
{
∇f(x∗) = Atλ∗
Ax∗ = b
⇒
{
x∗ = Atλ∗
Ax∗ = b
⇒
{
x∗ = Atλ∗
AAtλ∗ = b
⇒{
x∗ = At(AAt)−1b
λ∗ = (AAt)−1b
Deﬁnamos A∗ = At(AAt)−1 ∈ Rn×m . Temos então que x∗ = A∗b e
AA∗ = AAt(AAt)−1 = I.
7.5 Seja f : Rn → R, f ∈ C2. Seja x¯ ∈ Rn tal que Ax¯ = b (A ∈ Rm×n, b ∈
Rm) e tal que existe λ ∈ Rm com ∇f(x¯) = Atλ e ∇2f(x¯) deﬁnida
positiva. O ponto x¯ é um minimizador local de f sujeita a Ax = b?
Prove ou dê um contraexemplo.
Como existe λ ∈ Rm tal que ∇f(x¯) = Atλ, então ∇f(x¯) ∈ Im(At) =
Nu(A)⊥ (pelo exercício 1.3). Sejam {z1, z2, . . . , zn−m} uma base orto-
normal de Nu(A) e Z ∈ Rn×(n−m) uma matriz cujas colunas são os
vetores zi.
Logo, como ∇f(x¯) ∈ Nu(A)⊥, ∇f(x¯) ⊥ zi para i = 1, . . . , n − m.
Logo, ZT∇f(x¯) = 0. Como Ax¯ = b, deﬁnindo ϕ(γ) := f(x¯+Zγ) (com
γ ∈ Rn−m), temos então que ∇ϕ(0) = ZT∇f(x¯) = 0. Logo, x¯ satisfaz
a condição de otimalidade de primeira ordem.
Como∇2f(x¯) é deﬁnida positiva, pelo teorema espectral se Λ = diag(λ1, . . . , λn)
possui os autovalores de ∇2f(x¯) e V = [v1, . . . , vn] (i.e., a i-ésima co-
luna de Q é o autovetor vi associado a λi ), então temos que ∇2f(x¯) =
V ΛV T , onde V é ortogonal. Como todos os autovalores de ∇2f(x¯)
são positivos, então podemos decompor Λ =
√
Λ
t√
Λ (onde
√
Λ =
diag(λ−11 , . . . , λ
−1
n )). Seja agora 0 6= d ∈ Rn−m. Temos então que:
dtZt∇2f(x¯)Zd = dtZtV ΛV TZd
= dtZtV
√
Λ
t√
ΛV TZd
= (
√
ΛV TZd)t
√
ΛV TZd
=
∥∥∥√ΛV TZd∥∥∥2
2
Como Z e V são ortogonais,
√
ΛV TZ é inversível (sendo (
√
ΛV TZ)−1 =
ZTV
√
Λ
−1
, onde
√
Λ
−1
= diag(λ
−1/2
1 , . . . , λ
−1/2
n )) e d 6= 0, temos
√
ΛV TZd 6=
109
0. Portanto,
∥∥∥√ΛV TZd∥∥∥2
2
> 0 e Zt∇2f(x¯)Z é deﬁnida positiva, o que
faz x¯ satisfazer a condição suﬁciente de segunda ordem.
Logo, x¯ é um minimizador local def sujeita a Ax = b.
7.6 Considere o problema
minimizar
1
2
xtQx+ ptx+ q
s.a. Ax = b,
onde Q ∈ Rn×n é simétrica, x, p ∈ Rn, q ∈ R, A ∈ Rm×n, b ∈ Rm. Seja
Z uma base de Nu(A) e suponha que ZtQZ é deﬁnida positiva. Seja
x0 tal que Ax0 = b. Prove que a solução x¯ é dada por
x¯ = x0 − Z(ZtQZ)−1Zt(Qx0 + p).
Como x0 é tal que Ax0 = b e Z é uma base de Nu(A), o conjunto
factível é S = {x ∈ Rn | x = x0 + Zγ, γ ∈ Rn−m}.
Nomeemos a função objetivo como f(x) como:
f(x) =
1
2
xtQx+ ptx+ q
=
1
2
< x,Qx > + < p, x > +q
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x0 +Zγ), que
é dada por:
ϕ(γ) = f(x0 + Zγ)
=
1
2
< x0 + Zγ,Q(x0 + Zγ) > + < p, x0 + Zγ > +q
Primeiramente, pela regra da cadeia o gradiente de ϕ é dado por:
110
∇ϕ(γ) = Zt∇f(x0 + Zγ)
(pelo ex. 1.16)b), ∇f(x) = Qx+ p)
= Zt[Q(x0 + Zγ) + p]
= ZtQx0 + ZtQZγ + Ztp
= ZtQZγ + Zt(Qx0 + p)
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) = Zt∇2f(x˜+ Zγ)Z
(pelo ex. 1.16)b), ∇f(x) = Q)
= ZtQZ
Pelo enunciado, ∇2ϕ(γ) = ZtQZ é deﬁnida positiva (para todo γ ∈
Rn−m). Em particular, ZtQZ é inversível (por ser deﬁnida positiva).
Logo, a única condição restante (suﬁciente) de otimalidade para o pro-
blema (equivalente) sem restrições é:
∇ϕ(γ∗) = 0
Zt∇f(x0 + Zγ∗) = 0
ZtQZγ∗ + Zt(Qx0 + p) = 0
γ∗ = −(ZtQZ)−1Zt(Qx0 + p)
Portanto, temos que a solução ótima é dada por:
x∗ = x0 + Zγ∗
= x0 + Z[−(ZtQZ)−1Zt(Qx0 + p)]
= x0 − Z(ZtQZ)−1Zt(Qx0 + p)
111
7.7 Considere o problema
minimizar f(x)
s.a. Ax = b,
onde f : Rn → R, f ∈ C1, A ∈ Rm×n, b ∈ Rm,m < n e posto(A) = m.
Seja p¯ a solução de
minimizar ‖∇f(x)− p‖
s.a. Ap = 0.
Encontre p¯ e interprete geometricamente.
Considerando ‖·‖ = ‖·‖2, então o segundo problema equivale a:
minimizar g(p) = 1
2
‖∇f(x)− p‖22
s.a. Ap = 0.
Como posto(A) = m, então a dimensão de Nu(A) é n−m (pelo exercí-
cio 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal deNu(A)
(encontrada a partir de uma base qualquer de Nu(A) via processo de
Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz cujas colunas são os veto-
res zi.
Como p˜ = 0 é uma solução factível (pois Ap˜ = A0 = 0), o conjunto
factível é S = {p ∈ Rn | p = Zγ, γ ∈ Rn−m}.
O problema equivalente irrestrito é minimizar ϕ(γ) := g(Zγ), que é
dada por:
ϕ(γ) = g(Zγ)
=
1
2
‖∇f(x)− Zγ‖22
112
Primeiramente, pela regra da cadeia o gradiente de ϕ é dado por:
∇ϕ(γ) = Zt∇g(Zγ)
(como ∇‖x‖22 = 2x e ∇g(p) = −
1
2
2(∇f(x)− p) = p−∇f(x))
= Zt(Zγ −∇f(x))
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) = Zt∇2g(Zγ)Z
= Zt diag(1, . . . , 1)Z (onde diag(1, . . . , 1) ∈ Rn×n)
Logo, Zt diag(1, . . . , 1)Z é uma decomposição espectral de ∇2ϕ(γ), o
que implica que todos os seus autovalores são positivos (e iguais a 1)
para todo γ ∈ Rn−m. Logo ∇2ϕ(γ) é deﬁnida positiva (para todo
γ ∈ Rn−m).
Ainda, se p¯ é um minimizador local, então existe λ¯ ∈ Rm tal que (p¯, λ¯)
é solução do seguinte sistema (pela condição de primeira ordem da p.51
do livro da Ana):{
∇g(p¯) = Atλ¯
Ap¯ = 0
⇒
{
p¯−∇f(x) = Atλ¯
Ap¯ = 0
⇒
{
p¯ = Atλ¯+∇f(x)
A(Atλ¯+∇f(x)) = 0 ⇒{
p¯ = At(−(AAt)−1A∇f(x)) +∇f(x)
λ¯ = −(AAt)−1A∇f(x)
Logo,
p¯ = −At(AAt)−1A∇f(x) +∇f(x)
= (I − At(AAt)−1A)∇f(x)
= ProjNu(A)(∇f(x)) (pela eq. 8.2 na p. 57 do livro da Ana)
Geometricamente, p¯ é o ponto que está na intersecção dos m hiper-
planos que passam pela origem deﬁnidos por Ap = 0, e que é o mais
próximo possível de ∇f(x) (devido à minimização de ‖∇f(x)− p‖).
113
Em outras palavras, p¯ é a projeção de ∇f(x) sobre Nu(A).
7.8 Dadas as variedades aﬁns em Rn, S = {x ∈ Rn | Ax = b} e U = {y ∈
Rn | Cy = d}, onde A ∈ Rm×n, b ∈ Rm, C ∈ Rp×n, d ∈ Rp, considere o
problema de encontrar o ponto de S mais próximo de U . Formule esse
problema como um problema de otimização e escreva as condições de
otimalidade.
Se queremos encontrar o ponto de S mais próximo de U , então queremos
resolver o seguinte problema de otimização:
minimizar f(x, p) = 1
2
‖x− y‖22
s.a. Ax = b.
Cy = d.
Supondo posto(A) = m, então a dimensão de Nu(A) é n − m (pelo
exercício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal
de Nu(A) (encontrada a partir de uma base qualquer de Nu(A) via
processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz cujas colunas
são os vetores zi.
Seja x˜ tal que Ax˜ = b. Logo, S pode ser reescrito como S = {x ∈
Rn | x = x˜+ Zγ, γ ∈ Rn−m}.
Supondo agora posto(C) = p, então a dimensão de Nu(A) é n−p (pelo
exercício 1.3). Logo, sejam {w1, w2, . . . , wn−p} uma base ortonormal
de Nu(C) (encontrada a partir de uma base qualquer de Nu(C) via
processo de Gram-Schmidt) e W ∈ Rn×(n−p) uma matriz cujas colunas
são os vetores wi.
Seja y˜ tal que Cy˜ = d. Logo, U pode ser reescrito como U = {y ∈
Rn | y = y˜ +Wδ, δ ∈ Rn−p}.
O problema equivalente irrestrito é minimizar ϕ(γ, δ) := f(x˜+Zγ, y˜+
Wδ), que é dada por:
ϕ(γ, δ) = f(x˜+ Zγ, y˜ +Wδ)
=
1
2
‖x˜+ Zγ − y˜ −Wδ‖22
114
Primeiramente, pela regra da cadeia o gradiente de ϕ é dado por:
∇ϕ(γ, δ) = (∇tγϕ(γ, δ),∇tδϕ(γ, δ))t
= ([Zt∇xf(x˜+ Zγ, y˜ +Wδ)]t, [W t∇yf(x˜+ Zγ, y˜ +Wδ)]t)t
= ([2
1
2
Zt(x˜+ Zγ − y˜ −Wδ)]t, [−21
2
W t(x˜+ Zγ − y˜ −Wδ)]t)t
= ([Zt(x˜+ Zγ − y˜ −Wδ)]t, [−W t(x˜+ Zγ − y˜ −Wδ)]t)t
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ, δ) =
[ ∇2γγϕ(γ, δ) ∇2γδϕ(γ, δ)
∇2γδϕ(γ, δ) ∇2δδϕ(γ, δ)
]
=
[
Zt∇2xxf(x˜+ Zγ, y˜ +Wδ)Z Zt∇2xyf(x˜+ Zγ, y˜ +Wδ)W
W t∇2yxf(x˜+ Zγ, y˜ +Wδ)Z W t∇2yyf(x˜+ Zγ, y˜ +Wδ)W
]
=
[
ZtIZ Zt(−I)W
W t(−I)Z W tIW
]
=
[
ZtZ −ZtW
−W tZ W tW
]
=
[
I −ZtW
−W tZ I
]
Seja agora 0 6= d = (dt1, dt2)t ∈ R(2n−m−p)×(2n−m−p), com d1 ∈ Rn−m e
d2 ∈ Rn−p. Temos então que:
dt∇2ϕ(γ, δ)d = dt1Id1 + dt2(−W tZ)d1 + dt1(−ZtW )d2 + dt2Id2
= dt1d1 + d
t
2(−W tZ)d1 + dt1(−ZtW )d2 + dt2d2
= ‖d1‖22 + ‖d2‖22 − (Wd2)t(Zd1)− (Zd1)tWd2
= ‖d1‖22 + ‖d2‖22 − 2 < Wd2, Zd1 >
Temos que pelo menos um dos termos entre ‖d1‖22 e ‖d2‖22 é maior que
0 (pois 0 6= d = (dt1, dt2)t). Logo, para que ∇2ϕ(γ, δ) seja deﬁnida
positiva, é suﬁciente que, para todos d1 ∈ Rn−m ,d2 ∈ Rn−p:
115
−2 < Wd2, Zd1 > ≥ 0
< Wd2, Zd1 > ≤ 0
‖Wd2‖ ‖Zd1‖ cos(θ) ≤ 0
θ ∈ [pi
2
,
3pi
2
]
Logo, a outra condição restante (necessária) de otimalidade para o
problema (equivalente) sem restrições é:{
∇ϕ(γ∗, δ∗) = 0 ⇒
{
Zt(x˜+ Zγ∗ − y˜ −Wδ∗) = 0
−W t(x˜+ Zγ∗ − y˜ −Wδ∗) = 0 ⇒{
ZtZγ∗ = −Zt(x˜− y˜ −Wδ∗)
−W tZγ∗ +W tWδ∗ = W t(x˜− y˜) ⇒{
γ∗ = −(ZtZ)−1Zt(x˜− y˜ −Wδ∗)
−W tZ[−(ZtZ)−1Zt(x˜− y˜ −Wδ∗)] +W tWδ∗ = W t(x˜− y˜) ⇒{
γ∗ = −(ZtZ)−1Zt(x˜− y˜ −Wδ∗)
(−W tZ(ZtZ)−1ZtW +W tW )δ∗ = W t(x˜− y˜ − Z(ZtZ)−1Zt(x˜− y˜)) ⇒{
γ∗ = −(ZtZ)−1Zt(x˜− y˜) + (ZtZ)−1ZtWδ∗
δ∗ = −(W tZ(ZtZ)−1ZtW +W tW )−1W t(x˜− y˜ − Z(ZtZ)−1Zt(x˜− y˜)) ⇒{
γ∗ = −(ZtZ)−1Zt(x˜− y˜)− (ZtZ)−1ZtW (W tZ(ZtZ)−1ZtW +W tW )−1W t(x˜− y˜ − Z(ZtZ)−1Zt(x˜− y˜))
δ∗ = −(W tZ(ZtZ)−1ZtW +W tW )−1W t(x˜− y˜ − Z(ZtZ)−1Zt(x˜− y˜))
Em particular, para W e Z ortogonais (W tW = I = ZtZ), temos que:{
γ∗ = −Zt(x˜− y˜)− ZtW (W tZZtW + I)−1W t(x˜− y˜ − ZZt(x˜− y˜))
δ∗ = −(W tZZtW + I)−1W t(x˜− y˜ − ZZt(x˜− y˜))
Portanto, as soluções do problema (se a condição necessária de segunda
ordem for satisfeita) são x∗ = x˜+ Zγ∗ e y∗ = y˜ +Wδ∗
1.8 Capítulo 8 - Algoritmos para restrições lineares de
igualdade
8.1 Considere o problema de minimizar x2+3y2+2z2, sujeita a x+2y+3z =
6. Seja x0 = (1, 1, 1)t. Resolva o problema aplicando o método de
116
Newton ao problema reduzido e veriﬁcando que x1 satisfaz as condições
de otimalidade de primeira e segunda ordem.
O problema é minimizar f(x, y, z) = x2+3y2+2z2 sujeita a A(x, y, z) =
b, onde A =
[
1 2 3
]
e b = 6
Pelo sistema A(x, y, z) = 0, temos então que:{
x+ 2y + 3z = 0 ⇒
{
x = −2y − 3z
Portanto, se d ∈ Nu(A), então
d = (−2y − 3z, y, z)t
= y(−2, 1, 0)t + z(−3, 0, 1)t
Logo, {(−2, 1, 0)t, (−3, 0, 1)t} é uma base deNu(A). Seja Z =
 −2−31 0
0 1

.
Deﬁnindo (x˜, y˜, z˜)t = (1, 1, 1)t, temos que A(x˜, y˜, z˜) = b (ou seja, essa
é uma solução factível). Portanto, o conjunto factível S é:
S = {(x, y, z) ∈ R3 | (x, y, z) = (x˜, y˜, z˜)t + Zγ, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (1, 1, 1)t +
 −2 −31 0
0 1
[ γ1
γ2
]
, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (1, 1, 1)t + (−2γ1 − 3γ2, γ1, γ2)t, γ ∈ R2}
= {(x, y, z) ∈ R3 | (x, y, z) = (1− 2γ1 − 3γ2, 1 + γ1, 1 + γ2)t, γ ∈ R2}
= {(1− 2γ1 − 3γ2, 1 + γ1, 1 + γ2)t | γ ∈ R}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜ + Zγ), que
é dada por:
ϕ(γ) = f(x˜+ Zγ)
= f((1− 2γ1 − 3γ2, 1 + γ1, 1 + γ2)t)
= (1− 2γ1 − 3γ2)2 + 3(1 + γ1)2 + 2(1 + γ2)2
= 7γ21 + 12γ1γ2 + 2γ1 + 11γ
2
2 − 2γ2 + 6
117
Primeiramente, o gradiente de ϕ é dado por:
∇ϕ(γ) = ( ∂ϕ
∂γ1
,
∂ϕ
∂γ2
)t
= (2(7γ1 + 6γ2 + 1), 2(6γ1 + 11γ2 − 1))t
Além disso, a hessiana de ϕ é dada por:
∇2ϕ(γ) =
[
∂2ϕ
∂γ21
∂2ϕ
∂γ1∂γ2
∂2ϕ
∂γ1∂γ2
∂2ϕ
∂γ22
]
=
[
14 12
12 22
]
Os autovalores da hessiana são λ1 ≈ 30.6491 e λ2 ≈ 5.35089, e portanto
ela é deﬁnida positiva (e as direções geradas pelo método de Newton
serão de descida).
Apliquemos agora o método de Newton para ϕ(γ) a partir de x0 =
(1, 1, 1)t = x˜ + Z0, isto é, a partir de γ0 = (0, 0)t. As iterações são
dadas por:
1.i veriﬁcar ∇ϕ(γk) = 0 .
∇ϕ(γ0) = (2(7(0) + 6(0) + 1), 2(6(0) + 11(0)− 1))t
= (2,−2)t
6= (0, 0)t
Logo, o algoritmo continua.
1.ii calcular dk = −(∇2ϕ(γk))−1∇ϕ(γk) .
118
∇2ϕ(γ0)d0 = −∇ϕ(γ0)[
14 12
12 22
] [
d10
d20
]
= −
[
2
−2
]
d0 = (−17
41
,
13
41
)t
1.iii Determinar λk e deﬁnir γ
k+1 = γk + λkdk .
Seja φ0(λ) = ϕ(γ
0 + λd0) = ϕ((−λ1741 , λ1341)t). Temos que:
φ0(λ) = 7(−λ17
41
)2 + 12(−λ17
41
)(λ
13
41
) + 2(−λ17
41
) + 11(λ
13
41
)2 − 2(λ13
41
) + 6
=
30
41
λ2 − 60
41
λ+ 6
O ponto de mínimo de φ0(λ) é λ0 = − (−
60
41
)
2× 30
41
= 1. Portanto,
γ1 = γ0 + λ0d0
= (0, 0)t + 1(−17
41
,
13
41
)t
= (−17
41
,
13
41
)t
2.i veriﬁcar ∇ϕ(γk) = 0 .
∇ϕ(γ1) = (2(7(−17
41
) + 6(
13
41
) + 1), 2(6(−17
41
) + 11(
13
41
)− 1))t
= (0, 0)t
Logo, o algoritmo para.
Além disso, como ∇2ϕ(γ) é deﬁnida positiva para todo γ, segue
que γ1 satisfaz as condições de otimalidade de primeira e segunda
ordem para ϕ. Logo
119
(x1, y1, z1)t = (x˜, y˜, z˜)t + Zγ1
= (1, 1, 1)t +
 −2 −31 0
0 1
[ −1741
13
41
]
=
6
41
(6, 4, 9)t
também satisfaz as condições de otimalidade de primeira e se-
gunda ordem para f (por serem problemas equivalentes).
8.2 Considere o problema quadrático
minimizar f(x) = 1
2
xtQx− ctx = 1
2
< x,Qx > − < c, x >
s.a. Ax = b,
onde Q ∈ Rn×n é simétrica, c ∈ Rn, A ∈ Rm×n e b ∈ Rm. Prove que
x¯ é um minimizador local se e somente se x¯ é um minimizador global
(note que não há hipótese alguma sobre Q).
⇒ Sendo x∗ um minimizador global do problema, segue imediatamente
que x∗ também é um mínimizador local, pois para qualquer ε > 0 e
qualquer x ∈ B(x∗, ε) ∩ {y | Ay = b}, teremos f(x∗) ≤ f(x).
⇐ Seja x∗ um minimizador local do problema. Pelo exercício 1.16)b) ,
sabemos que ∇f(x) = Qx− c e ∇2f(x) = Q. Como x∗ é minimizador
local, então existe λ∗ ∈ Rm tal que Ax∗ = b e ∇f(x∗) = Qx∗−c = Atλ∗
(pela equação 7.10 da página 51 do livro da Ana).
Supondo posto(A) = m, então a dimensão de Nu(A) é n − m (pelo
exercício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal
de Nu(A) (encontrada a partir de uma base qualquer de Nu(A) via
processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz cujas colunas
são os vetores zi.
Como x∗ é solução viável, o conjunto viável S pode ser escrito como
S = {x ∈ Rn | x = x∗ + Zγ, γ ∈ Rn−m}.
Calculando f apenas nos pontos x ∈ S, obtemos então que:
120
f(x) = f(x∗ + Zγ)
=
1
2
< x∗ + Zγ,Q(x∗ + Zγ) > − < c, x∗ + Zγ >
=
1
2
[< x∗, Qx∗ > + < x∗, QZγ > + < Zγ,Qx∗ > + < Zγ,QZγ >]
− < c, x∗ > − < c, Zγ >
=
1
2
[< x∗, QZγ > + < Zγ,Qx∗ > + < Zγ,QZγ >]− < c, Zγ > +f(x∗)
= (Q simétrica⇒< x∗, QZγ >=< Qx∗, Zγ >)
=
1
2
[< Qx∗, Zγ > + < Zγ,Qx∗ > + < Zγ,QZγ >]− < c, Zγ > +f(x∗)
=
1
2
[< Zγ,QZγ >]+ < Qx∗, Zγ > − < c, Zγ > +f(x∗)
=
1
2
[< Zγ,QZγ >]+ < Qx∗ − c, Zγ > +f(x∗)
(∇f(x∗) = Qx∗ − c = Atλ∗)
=
1
2
[< Zγ,QZγ >]+ < Atλ∗, Zγ > +f(x∗)
=
1
2
γtZtQZγ + (λ∗)t��
�*
0 (Zγ ∈ Nu(A))
AZγ + f(x∗)
=
1
2
γtZtQZγ + f(x∗)
⇒
f(x)− f(x∗) = 1
2
γtZtQZγ
Ainda, como x∗ é minimizador de f restrito a S, então para todo x ∈ S,
existe ε > 0 tal que :
121
0 ≤ f(x∗ + ε(x− x∗))− f(x∗)
= f(x∗ + εZγ)− f(x∗)
=
1
2
< x∗ + εZγ,Q(x∗ + εZγ) > − < c, x∗ + εZγ > −[1
2
< x∗, Qx∗ > − < c, x∗ >]
=
1
2
[
hhhhhhh< x
∗, Qx∗ >+ < x∗, εQZγ > + < εZγ,Qx∗ > + < εZγ, εQZγ >]
−�����< c, x∗ >− < c, εZγ > −
XXXXXXXX
1
2
< x∗, Qx∗ >+���
��< c, x∗ >
=
1
2
[ε < x∗, QZγ > +ε < Zγ,Qx∗ > +ε2 < Zγ,QZγ >]− ε < c, Zγ >
= (Q simétrica⇒< x∗, QZγ >=< Qx∗, Zγ >)
=
1
2
[ε < Qx∗, Zγ > +ε < Zγ,Qx∗ > +ε2 < Zγ,QZγ >]− ε < c, Zγ >
=
ε2
2
< Zγ,QZγ > +ε < Qx∗, Zγ > −ε < c, Zγ >
=
ε2
2
< Zγ,QZγ > +ε < Qx∗ − c, Zγ >
(∇f(x∗) = Qx∗ − c = Atλ∗)
=
ε2
2
< Zγ,QZγ > +ε < Atλ∗, Zγ >
=
ε2
2
γtZtQZγ + ε(λ∗)t��
�*
0 (Zγ ∈ Nu(A))
AZγ
=
ε2
2
γtZtQZγ
Daí segue que γtZtQZγ ≥ 0. Como f(x) − f(x∗) = 1
2
γtZtQZγ, te-
mos também que f(x) − f(x∗) ≥ 0 para todo x ∈ S. Portanto, x∗ é
minimizador global de f restrita a S.
8.3 Considere o problema de minimizar f sujeita a Ax = b com f : Rn → R,
A ∈ Rm×n, b ∈ Rm, m < n e posto(A)= m. Sejam x¯ ∈ Rn tal que
Ax¯ = b e g = ∇f(x¯) 6= 0. Seja d ∈ Rn tal que ∇tf(x¯)d < 0. Sejam gˆ
e dˆ as projeções de g e d sobre Nu(A), respectivamente. Considere as
seguintes aﬁrmações:
(a) dˆtgˆ < 0;
(b) Existem dˆ e gˆ tais que dˆtgˆ ≥ 0;
122
Qual das duas aﬁrmações é verdadeira? Prove ou dê um contra-exemplo.
Seja Z ∈ Rn×(n−m) uma matriz cujas colunas formam uma base de
ortonormal de Nu(A) (isto é, ZtZ = I ).
Temos que:
dˆtgˆ = ProjNu(A)(d)
tProjNu(A)(g)
(eq. 8.3 da p. 57 do livro da Ana)
= [Z(ZtZ)−1Ztd]t(Z(ZtZ)−1Zt)∇f(x¯)
(ZtZ = I)
= [ZZtd]t(ZZt)∇f(x¯)
= dtZ(ZtZ)Zt∇f(x¯)
(ZtZ = I)
= dtZZt∇f(x¯)
= (Ztd)tZt∇f(x¯)
=< Ztd, Zt∇f(x¯) >
Temos que d é direção de descida (pois ∇tf(x¯)d < 0), mas pode não
ser uma direção factível de descida. Por outro lado, como −ZZt∇f(x¯)
é uma direção factível de descida, temos que ZZt∇f(x¯) é uma direção
factível de subida.
Em particular, se d = −ZZt∇f(x¯) (direção factível de descida), temos:
dˆtgˆ =< Ztd, Zt∇f(x¯) >
=< Zt(−ZZt∇f(x¯)), Zt∇f(x¯) >
(ZtZ = I)
= − < Zt∇f(x¯), Zt∇f(x¯) >
= −∥∥Zt∇f(x¯)∥∥2
2
(se Zt∇f(x¯) = 0, i.e., se ∇f(x¯) é ortogonal a Nu(A))
= 0
≥ 0
Logo, a aﬁrmação (b) é a verdadeira.
123
8.4 Considere o seguinte problema:
minimizar f(x1, x2) = x
2
1 + x
2
2
s.a. x1 + x2 = 1,
(a) Encontre a solução ótima x∗;
Nesse caso, temos que A =
[
1 1
]
e b = 1.
Pelo sistema Ax = 0, temos então que:{
x1 + x2 = 0 ⇒
{
x2 = −x1
Portanto, se d ∈ Nu(A), então:
d = (x1,−x1)t
= x1(1,−1)t
Logo, {(1,−1)t} é uma base de Nu(A). Seja Z =
[
1
−1
]
.
Seja x˜ tal que Ax˜ = b. Temos que:{
x˜1 + x˜2 = 1 ⇒
{
x˜2 = 1− x˜1
Deﬁnindo x˜1 =
1
2
, temos então que x˜ = (1
2
, 1
2
)t é uma solução
factível. Portanto, o conjunto factível S é:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (1
2
,
1
2
)t +
[
1
−1
]
γ, γ ∈ R}
= {x ∈ R2 | x = (1
2
+ γ,
1
2
− γ)t, γ ∈ R2}
= {(1
2
+ γ,
1
2
− γ)t | γ ∈ R}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜+Zγ),
que é dada por:
124
ϕ(γ) = f(x˜+ Zγ)
= f((
1
2
+ γ,
1
2
− γ)t)
= (
1
2
+ γ)2 + (
1
2
− γ)2
= 2γ2 +
1
2
≥ 1
2
∀γ ∈ RComo ϕ(0) = 1
2
e ϕ(γ) ≥ 1
2
, segue que γ∗ = 0 é o minimizador de
ϕ(γ) . Logo, o minimizador de f é x∗ = x˜+Zγ∗ = (1
2
, 1
2
)t +Z0 =
(1
2
, 1
2
)t.
(b) Considere o problema penalizado �minimizar x21+x
2
2+µ(x1+x2−
1)2 �. Para cada µ > 0, calcule a solução ótima x¯(µ);
Seja fµ(x) = x
2
1 + x
2
2 + µ(x1 + x2 − 1)2.
Primeiramente, o gradiente de fµ é dado por:
∇fµ(x) = (∂fµ
∂x1
,
∂fµ
∂x2
)t
= (2(µ(x1 + x2 − 1) + x1), 2(µ(x1 + x2 − 1) + x2))t
Além disso, a hessiana de ϕ é dada por:
∇2fµ(x) =
[
∂2fµ
∂x21
∂2fµ
∂x1∂x2
∂2fµ
∂x1∂x2
∂2fµ
∂x22
]
=
[
2µ+ 2 2µ
2µ 2µ+ 2
]
Os autovalores de ∇2fµ(x) são ambos positivos pois µ > 0 (λ1 =
2, λ2 = 2(2µ+1)),e portanto∇2fµ(x) é deﬁnida positiva para todo
x ∈ R2.
125
Logo, a única condição restante (e suﬁciente) de otimalidade é
∇fµ(x¯(µ)) = 0, que é dada por:{
2(µ(x¯1(µ) + x¯2(µ)− 1) + x¯1(µ)) = 0
2(µ(x¯1(µ) + x¯2(µ)− 1) + x¯2(µ)) = 0
⇒
{
x¯1(µ) =
µ
2µ+1
x¯2(µ) =
µ
2µ+1
Logo, a solução ótima é x¯(µ) = ( µ
2µ+1
, µ
2µ+1
)t
(c) Veriﬁque que limµ→∞ x¯(µ) = x∗;
Temos que
lim
µ→∞
x¯(µ) = lim
µ→∞
(
µ
2µ+ 1
,
µ
2µ+ 1
)t
= lim
µ→∞
(
1
2 + 1
µ
,
1
2 + 1
µ
)t
= (
1
2
,
1
2
)t
= x∗
(d) Repita (a), (b) e (c) trocando a função objetivo por x31 + x
3
2
Seja agora f(x, y) = x31 + x
3
2.
Como as restrições ainda são as mesmas do problema original,
então o conjunto viável S continua o mesmo, e é dado por:
S = {x ∈ R2 | x = x˜+ Zγ, γ ∈ R}
= {x ∈ R2 | x = (1
2
,
1
2
)t +
[
1
−1
]
γ, γ ∈ R}
= {x ∈ R2 | x = (1
2
+ γ,
1
2
− γ)t, γ ∈ R2}
= {(1
2
+ γ,
1
2
− γ)t | γ ∈ R}
O problema equivalente irrestrito é minimizar ϕ(γ) := f(x˜+Zγ),
que é dada por:
126
ϕ(γ) = f(x˜+ Zγ)
= f((
1
2
+ γ,
1
2
− γ)t)
= (
1
2
+ γ)3 + (
1
2
− γ)3
= 3γ2 +
1
4
≥ 1
4
∀γ ∈ R
Como ϕ(0) = 1
4
e ϕ(γ) ≥ 1
4
, segue que γ∗ = 0 é o minimizador de
ϕ(γ) . Logo, o minimizador de f é x∗ = x˜+Zγ∗ = (1
2
, 1
2
)t +Z0 =
(1
2
, 1
2
)t.
Seja fµ(x) = x
3
1 + x
3
2 + µ(x1 + x2 − 1)2.
Primeiramente, o gradiente de fµ é dado por:
∇fµ(x) = (∂fµ
∂x1
,
∂fµ
∂x2
)t
= (3x21 + 2µ(x1 + x2 − 1), 3x22 + 2µ(x1 + x2 − 1))t
Além disso, a hessiana de ϕ é dada por:
∇2fµ(x) =
[
∂2fµ
∂x21
∂2fµ
∂x1∂x2
∂2fµ
∂x1∂x2
∂2fµ
∂x22
]
=
[
2µ+ 6x1 2µ
2µ 2µ+ 6x2
]
A condição necessária de otimalidade de primeira ordem é∇fµ(x¯(µ)) =
0, que é dada por:{
3x21 + 2µ(x1 + x2 − 1) = 0
3x22 + 2µ(x1 + x2 − 1) = 0
Os pontos estacionários são dados na ﬁgura a seguir:
127
Figura 7: Pontos estacionários de fµ gerados pelo WolframAlpha .m := µ.
Logo, existem quatro diferentes pontos x¯(µ) que são estacionários.
Para qualquer um deles, temos limµ→∞ x¯(µ) 6= x∗.
(e) Analise os resultados obtidos.
Para o primeiro caso, foi possível obter limµ→∞ x¯(µ) = x∗, prova-
velmente devido ao �comportamento regular� da função f(x, y) =
x2 + y2 (com curvas de nível concêntricas) e também devido ao
uso de uma penalidade apropriada (quadrática).
Para o segundo caso, não foi possível obter limµ→∞ x¯(µ) = x∗,
provavelmente devido ao �comportamento irregular� da função
f(x, y) = x3+y3 (com curvas de nível não concêntricas) e também
devido ao uso de uma penalidade inapropriada (quadrática).
8.5 Seja z1 = (1,−1, 2)t. Escolha z2 ∈ R3 tal que z1 e z2 sejam linearmente
independentes. Considere Z = [z1z2] uma base de Nu(A) com A ∈
Rm×n.
(a) Determine m e n;
Como z1 = (1,−1, 2)t, então se deﬁnirmos z2 = −z1 = (−1, 1,−2)t,
teremos que z1 e z2 serão linearmente independentes (pois (z1)tz2 =
128
0). Supondo 1 ≤ m ≤ n (suposição da página 47 do livro da
Ana) e posto(A) = k ≤ min(m,n) = m,seja então Z = [z1z2] = 1 −1−1 1
2 −2
 ∈ Rn×(n−k) uma base de Nu(A) com A ∈ Rm×n.
Como Z tem três linhas, segue que n = 3. Como a base de Nu(A)
tem dois vetores, segue que dim(Nu(A)) = 2. Ainda, pelo exercí-
cio 1.3)b), temos:
dim(Nu(A)) = n− k
2 = 3− k
k = 1
m, por sua vez, pode assumir qualquer valor em {1, . . . , n}, isto
é, em {1, . . . , 3}.
(b) Encontre A. É única?
A não é única, pois, como visto acima, nem o seu número de di-
mensões é unicamente determinado (poism pode assumir qualquer
valor em {1, . . . , 3})
Se x ∈ Rn = R3 pertence a Nu(A), então existe γ ∈ Rn−k = R2
tal que d = Zγ = (γ1 − γ2,−(γ1 − γ2), 2(γ1 − γ2))t = (x,−x, 2x)t
(para algum x ∈ R) . Logo, se (x, y, z)t ∈ Nu(A), então y = −x
e z = 2x.
Portanto, supondo m = 2, uma possibilidade para A seria A =[
1 1 0
−2 0 1
]
, pois A(x, y, z)t = 0⇒ y = −x e z = 2x.
Para m = 3, outra possibilidade para A seria simplesmente adicio-
nar uma equação redundante (i.e., uma linha que seja combinação
linear das outras), como A =
 1 1 0−2 0 1
−2 0 1

. Nesse caso, também
temos que A(x, y, z)t = 0⇒ y = −x e z = 2x.
(c) Ache as equações da variedade aﬁm paralela a Nu(A) que passa
pelo ponto (2, 5, 1)t;
Como visto no item (b) (para m = 2), os pontos de Nu(A) são da
forma (x,−x, 2x)t para x ∈ R, e portanto Nu(A) é uma reta que
passa pela origem com vetor diretor (1,−1, 2)t. Logo, se S é uma
129
reta paralela a Nu(A) que passa pelo ponto (2, 5, 1)t, seu vetor
diretor também será (1,−1, 2)t e S é dada por:
S = {(2, 5, 1)t + λ(1,−1, 2)t | λ ∈ R}
S = {(2 + λ, 5− λ, 1 + 2λ)t | λ ∈ R}
Como λ = x− 2 = 5− y = z−1
2
, então os pontos de S podem ser
expressos pelo seguinte sistema de equações:{
x− 2 = 5− y
5− y = z−1
2
⇒
{
x+ y = 7
10− 2y = z − 1 ⇒
{
x+ y + 0z = 7
0x− 2y − z = −11
Portanto, deﬁnindo C =
[
1 1 0
0 −2 −1
]
e d = (7,−11)t, S pode
ser expresso por:
S = {(x, y, z) ∈ R3 | C(x, y, z)t = d}
Ainda, pelo sistema C(x, y, z) = 0, temos então que:{
x+ y = 0
−2y − z = 0 ⇒
{
x = −y
z = −2y
Portanto, se d ∈ Nu(C), então
d = (−y, y,−2y)t
= y(−1, 1,−2)t
Logo, {(−1, 1,−2)t} é uma base de Nu(A). Seja W =
 −11
−2

.
(d) Se S é a variedade encontrada em (c) e x¯ é a solução de minimizar
f sujeita a x ∈ S, onde f : Rn → R, qual é a relação entre Z e f
no ponto x¯?
Seja W uma matriz cujas colunas são uma base de Nu(C). Pela
condição de otimalidade de primeira ordem (p.49 do livro da Ana),
sabemos queW t∇f(x¯) = 0 (ou seja, ∇f(x¯) é ortogonal a Nu(C)).
Porém como Nu(C) e Nu(A) são paralelas, então ∇f(x¯) também
será ortogonal a Nu(A), isto é, Zt∇f(x¯) = 0.
130
8.6 Considere o problema de minimizar f sujeita a Ax = b com f : Rn → R,
f ∈ C2, A ∈ Rm×n, b ∈ Rm. Se x¯ ∈ Rn é uma solução desse problema
então existe λ¯ ∈ Rm tal que ∇f(x¯) + Atλ¯ = 0. Deﬁnimos
a função lagrangeana: L(x, λ) = f(x) + λt(Ax− b);
a função dual: φ(λ) = MinimizarxL(x, λ);
para todo λ tal que φ(λ) esteja bem deﬁnida, e
o problema dual: Maximizar φ(λ)
(a) Que tipo de ponto é (x¯, λ¯) em relação a L(x, λ) ?
Temos que
∇xL(x, λ) = ∇f(x) +∇x(λtAx− λtb)
= ∇f(x) + Atλ
⇒
∇xL(x¯, λ¯) = ∇f(x¯) + Atλ¯
= 0 (pelo enunciado)
Logo, (x¯, λ¯) é um ponto estacionário de L(x, λ).
(b) Prove que φ(λ) ≤ f(x) para todo x tal que Ax = b;
Para x tal que Ax = b, temos Ax− b = 0,e portanto:
φ(λ) = MinimizarxL(x, λ)
≤ L(x, λ)
= f(x) + λt���
���:0(Ax− b)
= f(x)
Logo, φ(λ) ≤ f(x) para x tal que Ax = b.
131
(c) Exiba o problema dual para f(x) = ctx, onde c ∈ Rn.
Temos que
L(x, λ) = ctx+ λt(Ax− b)
⇒
∇xL(x, λ) = ∇(ctx) +∇x(λtAx− λtb)
= c+ Atλ
⇒
∇xL(x∗, λ) = 0
c+ Atλ = 0
c = −Atλ
Portanto, φ(λ) é dada por:
φ(λ) = MinimizarxL(x, λ)
= L(x∗, λ)
= (−Atλ)tx+ λt(Ax− b)
= −���λtAx+���λtAx− λtb
= −λtb
Desta forma, temos
o problema dual: Maximizar φ(λ) = −λtb
8.7 Considere o problema de minimizar f(x) = 1
2
xt(x−2c) sujeita a Ax = b,
onde c ∈ Rn, A ∈ Rm×n, b ∈ Rm, m ≤ n e posto(A)= m. Seja
P a matriz de projeção sobre o núcleo deA. Seja x¯ uma solução do
problema. Prove que Px¯ = Pc. Interprete geometricamente em R2.
Como posto(A) = m, então a dimensão de Nu(A) é n−m (pelo exer-
cício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonormal (i.e.,
ZtZ = I) de Nu(A) (encontrada a partir de uma base qualquer de
132
Nu(A) via processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma matriz
cujas colunas são os vetores zi.
Pela página 57 do livro da Ana, a matriz de projeção P sobre o núcleo
de A é dada por P = ZZt.
Temos que o gradiente de f é dado por:
∇f(x) = ∇(1
2
‖x‖22 − xtc)
= x− c
Pela condição de otimalidade de primeira ordem (p. 50 do livro da
Ana), temos:
Zt∇f(x¯) = 0
Zt(x¯− c) = 0
Ztx¯ = Ztc
ZZtx¯ = ZZtc
P x¯ = Pc
Geometricamente, isso signiﬁca que x¯ e c são �simétricos� em relação a
Nu(A) (que é uma reta se n = 2), pois ambos estão mais próximos de
um mesmo ponto de Nu(A) (já que suas projeções em Nu(A)) são as
mesmas.
8.8 Considere o problema (P) Minimizar f(x) = 1
2
xtBx + ctx sujeita a
Ax = b, onde {x ∈ Rn | Ax = b} é não vazio e B é simétrica.
(a) Prove que se (P) tem solução, então ztBz ≥ 0 para todo z ∈
Nu(A).
Sendo x∗ a solução de P .
Supondo posto(A) = m, então a dimensão de Nu(A) é n − m
(pelo exercício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base or-
tonormal de Nu(A) (encontrada a partir de uma base qualquer
de Nu(A) via processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma
matriz cujas colunas são os vetores zi.
133
Como x∗ é solução viável, o conjunto viável S pode ser escrito
como S = {x ∈ Rn | x = x∗ + Zγ, γ ∈ Rn−m}.
Seja z ∈ Nu(A). Logo, como as colunas de Z são uma base de
Nu(A), existe γ ∈ Rn−m tal que z = Zγ. Daí vem que:
ztBz = (Zγ)tB(Zγ)
= γtZtBZγ
≥ 0(provado na �volta� do exercício 8.2)
(b) Prove que (P) tem solução única se e somente se ztBz > 0 para
todo z ∈ Nu(A), z 6= 0.
⇒ Suponhamos que (P) tenha uma solução única x∗. Portanto,
x∗ é um minimizador global estrito de f restrito a Ax = b. Dessa
forma (novamente repetindo a demonstração feita no exercício
8.2), para todo x tal que Ax = b existe ε > 0 tal que:
0 < f(x∗ + ε(x− x∗))− f(x∗)
.
.
. (mesma demonstração do ex. 8.2)
=
ε2
2
γtZtBZγ
Da inequação anterior, como ε > 0, segue que γtZtBZγ > 0 para
todo γ ∈ Rn−m.
Seja z ∈ Nu(A). Logo, como as colunas de Z são uma base de
Nu(A), existe γ ∈ Rn−m tal que z = Zγ. Daí vem que:
ztBz = (Zγ)tB(Zγ)
= γtZtBZγ
> 0
⇐ Suponhamos que ztBz > 0 para todo z ∈ Nu(A), z 6= 0, e seja
x∗ um minimizador de f restrito a Ax = b.
134
Seja z ∈ Nu(A). Logo, como as colunas de Z são uma base de
Nu(A), existe γ ∈ Rn−m tal que z = Zγ. Assim, para todo ε > 0,
temos que (�invertendo� a demonstração do exercício 8.2):
ztBz > 0
ε2
2
(Zγ)tB(Zγ) > 0
ε2
2
γtZtBZγ > 0
(mesma demonstração do ex. 8.2)
.
.
.
f(x∗ + Z(εγ))− f(x∗) > 0
(γ′ := εγ)
f(x∗ + Zγ′)− f(x∗) > 0
(todo ponto viável x é da forma x∗ + Zγ′)
f(x)− f(x∗) > 0
Logo, x∗ é um minimizador global estrito de f restrito a Ax = b.
Portanto, x∗ é único.
(c) Mostre com um exemplo que (a) é condição necessária de otima-
lidade mas não é suﬁciente.
não resolvido
8.9 Seja B uma matriz simétrica. Dizemos que B ≥ 0 em Nu(A) se ztBz ≥
0 para todo z ∈ Nu(A), e dizemos que B > 0 em Nu(A) se ztBz > 0
para todo z ∈ Nu(A), z 6= 0.
(a) Prove que se existe r ∈ R tal que B + rAtA > 0, então B > 0 em
Nu(A);
Provando a contrapositiva, suponhamos que existe z ∈ Nu(A), z 6=
0 tal que ztBz ≤ 0. Para todo r ∈ R, temos então que:
zt(B + rAtA)z = ztBz + rztAt��*
0 (z ∈ Nu(A))
Az
= ztBz
≤ 0
Logo, não existe r ∈ R tal que B + rAtA > 0.
135
(b) Prove que se existe r ∈ R tal que B + rAtA ≥ 0, então B ≥ 0 em
Nu(A);
Provando a contrapositiva, suponhamos que existe z ∈ Nu(A), z 6=
0 tal que ztBz < 0. Para todo r ∈ R, temos então que:
zt(B + rAtA)z = ztBz + rztAt��*
0 (z ∈ Nu(A))
Az
= ztBz
< 0
Logo, não existe r ∈ R tal que B + rAtA ≥ 0.
(c) Prove que se B > 0 em Nu(A), então existe r ∈ R tal que B +
rAtA > 0;
caso 1: Se 0 6= d ∈ Nu(A).
Suponhamos que B > 0 em Nu(A), isto é, se 0 6= z ∈ Nu(A)
então ztBz > 0. Para r = 0 segue que:
dt(B + rAtA)d = dtBd+��
0
rdtAtAd
= dtBd
> 0 (pois 0 6= d ∈ Nu(A))
Logo, existe r ∈ R tal que B + rAtA > 0.
caso 2: Consideremos agora 0 6= d 6∈ Nu(A), mas provemos a
contrapositiva. Isto é, suponhamos que para todo r ∈ R a matriz
B+rAtA não seja deﬁnida positiva. Logo, para todo r ∈ R, existe
0 6= d 6∈ Nu(A) (pois já consideramos 0 6= d ∈ Nu(A) no caso 1)
tal que:
dt(B + rAtA)d ≤ 0
dtBd+ rdtAtAd ≤ 0
dtBd+ r(Ad)tAd ≤ 0
dtBd+ r
>0 pois d 6∈Nu(A)︷ ︸︸ ︷
‖Ad‖22 ≤ 0
136
Consideremos uma subdivisão do caso 2 em três casos, de acordo
com o valor de r.
caso 2.1: Para r = 0, obtemos que:
dtBd ≤ 0
Logo, B não é deﬁnida positiva.
caso 2.2: Para r > 0, obtemos que:
dtBd ≤ −r ‖Ad‖22 < 0
dtBd < 0
Logo, B não é deﬁnida positiva.
caso 2.3: Para r < 0, não conseguimos aﬁrmar algo sobre o sinal
de dtBd. Porém, como apenas estamos querendo veriﬁcar se B não
é deﬁnida positiva em Nu(A) (e o caso 2 é caso 0 6= d 6∈ Nu(A)),
não há o que analisar.
(d) Através de um exemplo mostre que a recíproca de (b) não é ver-
dadeira.
não resolvido
8.10 Relacione os exercícios 8.8 e 8.9 com a resolução do problema
Minimizar φ(x, r) =
1
2
xtBx+ ctx+ r ‖Ax− b‖2 .
Seja f(x) = 1
2
xtBx+ctx. Temos então que φ(x, r) = f(x)+r ‖Ax− b‖2.
O gradiente de φ(x, r) em relação a x é dado por:
∇xφ(x, r) = ∇f(x) +∇x(r ‖Ax− b‖2)
= Bx+ c+ 2rAt(Ax− b)
A hessiana de φ(x, r) em relação a x é dado por:
137
∇2xφ(x, r) = Jx(∇xφ(x, r))(x, r)
= B + 2r(AtA)t
= B + 2rAtA
Deﬁnindo r′ := 2r, temos:
∇2xφ(x, r′) = B + r′AtA
Seja (P) o problema de minimizar f(x) restrita a Ax = b, e seja (P') o
problema de minimizar φ(x, r) sem restrições.
Pelo exercício 8.8, temos que B ≥ 0 em Nu(A) é condição necessária
de otimalidade para (P), e B > 0 em Nu(A) é parte das condições
suﬁcientes de otimalidade para (P).
Pelo exercício 8.9)b), se vale a condição necessária de otimalidade para
(P') (existe r ∈ R tal que B + rAtA ≥ 0), então vale a condição
necessária de otimalidade para (P) (B ≥ 0 em Nu(A)).
Pelos itens 8.9)a)c), temos que a condição suﬁciente de otimalidade para
(P) (B > 0 em Nu(A)) é válida se, e somente se, a condição suﬁciente
de otimalidade para (P) é válida (existe r ∈ R tal que B + rAtA > 0).
Portanto, se encontrarmos um ponto (x∗, r∗) que satisfaça as condições
suﬁcientes de otimalidade para (P'), então x∗ irá satisfazer as condições
suﬁcientes de otimalidade para (P) (o problema original, com restri-
ções). Também temos que se (x∗, r∗) que satisfaz a condição necessária
de otimalidade para (P'), então x∗ irá satisfazer a condição necessária
de otimalidade para (P).
Isso é vantajoso, pois é mais fácil resolver (P') de modo direto (usando
métodos de otimização irrestrita) do que (P) (por causa das restrições).
8.11 Considere o problema de minimizar f(x) = 1
2
xtLx sujeita a Ax = 0,
onde L ∈ Rn×n simétrica, A ∈ Rm×n, m < n e posto(A)= m.
(a) Escreva as condições de otimalidade de primeira e segunda or-
dem.
138
Como posto(A) = m, então a dimensão de Nu(A) é n−m (pelo
exercício 1.3). Logo, sejam {z1, z2, . . . , zn−m} uma base ortonor-
mal de Nu(A) (encontrada a partir de uma base qualquer de
Nu(A) via processo de Gram-Schmidt) e Z ∈ Rn×(n−m) uma ma-
triz cujas colunas são os vetores zi.
Como 0 é solução viável, o conjunto viável S pode ser escrito como
S = {x ∈ Rn | x = 0 + Zγ = Zγ, γ ∈ Rn−m}.
O problema equivalente irrestrito é minimizar ϕ(γ) := f(Zγ).
Portanto, as condições (suﬁcientes) de otimalidade para o pro-
blema (equivalente) sem restrições são:{
∇ϕ(γ∗) = 0
∇2ϕ(γ∗) > 0 ⇒
{
Zt∇f(Zγ∗) = 0
Zt∇2f(Zγ∗)Z > 0 ⇒
{
ZtLZγ∗ = 0
ZtLZ > 0
(b) Suponha que são válidas as condições suﬁcientesem (a) e encontre
a solução.
Supondo válidas as condições em (a), temos então que ZtLZ > 0.
Logo, ZtLZ é invertível e da condição primeira ordem temos que:
ZtLZγ∗ = 0
γ∗ = (ZtLZ)−10
γ∗ = 0
Como x∗ = Zγ∗ = Z0 = 0, temos que x∗ = 0 é um minimizador
local do problema.
1.9 Capítulo 9 - Minimização com restrições lineares de
desigualdade
9.1 Considere o seguinte problema
maximizar 2x1 + 3x2
s.a. x1 + x2 ≤ 8
−x1 + 2x2 ≤ 4
x1, x2 ≥ 0
139
(a) Escreva as condições de otimalidade;
Temos que o problema é equivalente a
minimizar f(x) = −2x1 − 3x2
s.a. x1 + x2 ≤ 8
−x1 + 2x2 ≤ 4
−x1 + 0x2 ≤ 0
0x1 − x2 ≤ 0
Nesse caso, temos A =

1 1
−1 2
−1 0
0 −1
 e b =

8
4
0
0
.
O gradiente de f é dado por:
∇f(x) = ( ∂f
∂x1
,
∂f
∂x2
)t
= (−2,−3)t
Além disso, a hessiana de f é dada por:
∇2f(x) =
[
∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x2
∂2f
∂x22
]
=
[
0 0
0 0
]
Sejam x∗ ∈ Rn , I(x∗) := {j ∈ {1, . . . ,m} | atjx∗ = bj}, r(x∗) :=
|I(x∗)|, J := {i ∈ {1, . . . , r(x∗)} | λi < 0}.
Pelo teorema 9.2 (p. 73 do livro da Ana), as condições necessárias
de otimalidade são:
(i) existe λ ∈ Rr(x∗) tal que ∇f(x∗) = AtIλ e λi ≤ 0 para todo
i ∈ {1, . . . , r(x∗)}
140
(ii) Para todo y ∈ Nu(AI) temos que yt∇2f(x∗)y ≥ 0
Pelo teorema 9.3 (p. 73 do livro da Ana), as condições suﬁcientes
de otimalidade (local) são:
(i) existe λ ∈ Rr(x∗) tal que ∇f(x∗) = AtIλ e λi ≤ 0 para todo
i ∈ {1, . . . , r(x∗)}
(ii) Para todo 0 6= y ∈ Nu(AJ ) temos que yt∇2f(x∗)y > 0
(b) Para cada ponto extremo veriﬁque se as condições de otimalidade
são satisfeitas. Encontre a solução ótima.
O conjunto viável é dado pela ﬁgura a seguir:
Figura 8: Conjunto viável gerado pelo WolframAlpha .
Resolvendo as igualdades duas a duas, obtemos que os pontos
extremos são x1 = (0, 0)t, x2 = (8, 0)t, x3 = (4, 4)t e x4 = (0, 2)t.
Analisemos o ponto x1 = (0, 0)t. Temos que os elementos para a
veriﬁcação das condições a serem deﬁnidos são:
141
I(x1) = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {3, 4}
r(x1) = |I(x1)|
= 2
AtI =
[ −1 0
0 −1
]
∇f(x1) = AtIλ, λi ≤ 0, λ ∈ Rr(x
1) = R2
(−2,−3)t =
[ −1 0
0 −1
]
(λ1, λ2)
t
(λ1, λ2)
t = (2, 3)
Logo, x1 = (0, 0)t não satisfaz a condição necessária de primeira
ordem.
Analisemos o ponto x2 = (8, 0)t. Temos que os elementos para a
veriﬁcação das condições a serem deﬁnidos são:
I(x2) = {j ∈ {1, . . . ,m} | atjx2 = bj}
= {1, 4}
r(x2) = |I(x2)|
= 2
AtI =
[
1 0
1 −1
]
∇f(x2) = AtIλ, λi ≤ 0, λ ∈ Rr(x
2) = R2
(−2,−3)t =
[
1 0
1 −1
]
(λ1, λ2)
t
(λ1, λ2)
t = (−2, 1)
Logo, x2 = (8, 0)t não satisfaz a condição necessária de primeira
ordem.
Analisemos o ponto x3 = (4, 4)t. Temos que os elementos para a
veriﬁcação das condições a serem deﬁnidos são:
142
I(x3) = {j ∈ {1, . . . ,m} | atjx3 = bj}
= {1, 2}
r(x3) = |I(x3)|
= 2
AtI =
[
1 −1
1 2
]
∇f(x3) = AtIλ, λi ≤ 0, λ ∈ Rr(x
3) = R2
(−2,−3)t =
[
1 −1
1 2
]
(λ1, λ2)
t
(λ1, λ2)
t = (−7
3
,−1
3
)⇒ x3 satisfaz condição de primeira ordem
J = {i ∈ {1, . . . , r(x3)} | λi < 0}
= {1, 2}
AJ =
[
1 1
−1 2
]
AJ (x1, x2)t = (0, 0)t[
1 1
−1 2
]
(x1, x2)
t = (0, 0)t
(x1, x2)
t = (0, 0)t
Nu(AJ ) = {(0, 0)t} ⇒ x3 satisfaz condição de segunda ordem
por �vacuidade�
Logo, x3 = (4, 4)t satisfaz as condições necessárias de primeira e
segunda ordem. Como se trata de um problema de programação
linear (em que o ótimo, quando existe, é atingido em um dos
vértices do conjunto viável), temos que x3 = (4, 4)t é a solução
ótima.
Analisemos o ponto x4 = (0, 2)t. Temos que os elementos para a
veriﬁcação das condições a serem deﬁnidos são:
143
I(x4) = {j ∈ {1, . . . ,m} | atjx4 = bj}
= {2, 3}
r(x4) = |I(x4)|
= 2
AtI =
[ −1 −1
2 0
]
∇f(x4) = AtIλ, λi ≤ 0, λ ∈ Rr(x
4) = R2
(−2,−3)t =
[ −1 −1
2 0
]
(λ1, λ2)
t
(λ1, λ2)
t = (
7
2
,−3
2
)
Logo, x4 = (0, 2)t não satisfaz a condição necessária de primeira
ordem.
9.2 Considere o problema (P):
minimizar f(x)
s.a. Ax ≤ b,
onde A ∈ Rm×n,m < n, b ∈ Rm e considere também o sistema não-
linear (S): {
∇f(x) + Atµ = 0
(ati − bi)µi = 0, i = 1, . . . ,m,
onde At = [a1 . . . am]. Qual é a relação entre as soluções de (P) e (S)?
Sejam x∗ ∈ Rn umminimizador local de (P), I(x∗) := {j ∈ {1, . . . ,m} | atjx∗ =
bj}, r(x∗) := |I(x∗)|, J := {i ∈ {1, . . . , r(x∗)} | λi < 0}.
Pelo teorema 9.2 (p. 73 do livro da Ana), existe λ ∈ Rr(x∗) tal que
∇f(x∗) − AtIλ = 0 e λi ≤ 0 para todo i ∈ {1, . . . , r(x∗)}. Logo,
estendendo λ ∈ Rr(x∗) para µ ∈ Rm, de forma que µi = 0 para atix∗i < bi
(e µi = −λi para atix∗i = bi ), da própria deﬁnição de µ segue que:
144
{
∇f(x∗) + Atµ = 0
(ati − bi)µi = 0, i = 1, . . . ,m,
Portanto, se x∗ é solução de (P), então (x∗, µ) (µ como deﬁnido anteri-
ormente) será solução de (S). Mais genericamente, o sistema linear de
(S) expressa apenas duas das condições KKT de (P) (a de estacionari-
edade e a de complementaridade). Como a linearidade das restrições é
uma condição de qualiﬁcação, temos que todo minimizador x∗ de (P)
irá satisfazer as condições KKT (e por isso (x∗, µ) é solução de (S)).
9.3 Resolva o problema de otimização
(P): minimizar f(x, y)
s.a. 0 ≤ x ≤ 1
0 ≤ y ≤ 1
com f(x, y) = g(x) − x2 + y2, onde g(x) é o valor ótimo da função
objetivo do seguinte problema:
(S): minimizar g(u, v) = u2 + v2
s.a. u+ 2v ≥ x
u, v ≥ 0
Como g(u, v) = u2 + v2 ≥ 0, se x ≤ 0 segue imediatamente que a
solução ótima de (S) é (u∗, v∗)t = (0, 0)t, e portanto g(x) = g(u∗, v∗) =
g(0, 0) = 0.
Analisemos agora o caso x > 0.
Como x > 0, u ≥ 0, v ≥ 0 e as curvas de nível de g(u, v) = u2 + v2 au-
mentam conforme (u, v) se afasta da origem, temos que o minimizador
de g(u, v) deve estar no segmento de reta de u + 2v = x que está no
primeiro quadrante e que está mais próximo da origem. Logo, existe
t∗ ∈ [0, 1] tal que (u∗, v∗)t = (1 − t∗)(0, x
2
)t + t∗(x, 0)t = (t∗x, (1−t
∗)x
2
)t.
O quadrado da distância desses pontos à origem é dado por:
145
d(t) = (tx− 0)2 + ((1− t)x
2
)2
=
5x2
4
t2 − x
2
2
t+
x2
4
Cujo ponto de mínimo para x > 0 é t∗ = − b
2a
=
x2
2
2 5x
2
4
= 1
5
. Logo,
(u∗, v∗)t = (t∗x, (1−t
∗)x
2
)t = (x
5
, 2x
5
)t e então g(x) = g(u∗, v∗) = g(x
5
, 2x
5
) =
x2
5
para x > 0.
Dessa forma, considerando apenas os pontos viáveis de (P) (devido à
restrição 0 ≤ x ≤ 1), obtemos que g(x) = x2
5
. Portanto, (P) se reduz a:
(P): minimizar f(x, y) = g(x)− x2 + y2
= x2(1
5
− 1) + y2
= −4
5
x2 + y2
s.a. 0 ≤ x ≤ 1
0 ≤ y ≤ 1
Portanto, como y2 ≥ 0 e −4
5
x2 ≤ 0, para minimizar f(x, y) basta
minimizar y e maximizar x dentro do conjunto viável.
Logo, a solução de (P) é (x∗, y∗) = (1, 0)t.
9.4 Considere o seguinte problema canalizado:
minimizar f(x)
s.a. ai ≤ xi ≤ bi, i = 1, . . . ,m
Seja x um ponto factível e g = ∇f(x). Seja a direção d deﬁnida por
di =
{
0 se (xi = ai e gi ≥ 0) ou (xi = bi e gi ≤ 0)
−gi caso contrário
146
(a) Prove que d é uma direção factível e de descida em x
Temos que o problema em questão é equivalente a:
minimizar f(x)
s.a. −xi ≤ −ai, i = 1, . . . ,m
xi ≤ bi, i = 1, . . . ,m
Nesse caso, temos que A′ =
[ −I
I
]
∈ R2m×m e b′ =
[ −a
b
]
∈
R2m.
Sabemos (pela aﬁrmação 9.3 da p. 67 do livro da Ana) que d ∈ Rn
é factível em x ⇐⇒ a′tj d ≤ 0 para todo j ∈ I(x).
Também sabemos (pela proposição 4.1 da p. 21 do livro da Ana)
que se d ∈ Rn é de descida em x então ∇tf(x)d ≤ 0.
Para cada j = 1, . . . ,m, se j ∈ I(x) então xj = aj. Nesse caso,
temos que:
a′tj d = −dj
Se gj ≥ 0, temos (xj = aj e gj ≥ 0), de onde vem dj = 0 e
portanto a′tj d = −dj = 0 ≤ 0.
Se gj ≤ 0, vale o caso contrário da deﬁniçãode dj (pois (xj =
aj e gj ≤ 0) ), de onde vem dj = −gj e portanto a′tj d = −dj =
−(−gj) = gj ≤ 0.
Para cada j = m+ 1, . . . , 2m, se j ∈ I(x) então xj−m = bj. Nesse
caso, temos que:
a′tj d = dj−m
Se gj−m ≤ 0, temos (xj−m = bj−m e gj−m ≤ 0), de onde vem
dj−m = 0 e portanto a′tj d = dj−m = 0 ≤ 0.
Se gj−m ≥ 0, vale o caso contrário da deﬁnição de dj−m (pois
(xj−m = bj−m e gj ≥ 0) ), de onde vem dj−m = −gj−m e portanto
a′tj d = dj−m = −gj−m ≤ 0.
147
Portanto, d é factível em x.
Temos também que:
∇tf(x)d =
n∑
i=1
gidi
Como di = 0 ⇒ gidi = 0 ≤ 0 e di = −gi ⇒ gidi = −g2i ≤ 0. Se x
não é estacionário, então gi 6= 0 para pelo menos um i e daí vem
que −g2i < 0⇒
∑n
i=1 gidi < 0. Logo, d é direção de descida em x
(b) Prove que d = 0 se e somente se x satisfaz as condições de otima-
lidade de primeira ordem;
⇐ Suponhamos que x satisfaz a condição necessária de primeira
ordem. Sejam I := {j ∈ {1, . . . ,m} | (a′j)tx = bj} = {i1, . . . , ir(x)},
r(x) := |I|. Logo (pelo teorema 9.2 da p. 73 do livro da Ana),
existe λ′ ∈ Rr(x) tal que ∇f(x) = A′tIλ′ =
r(x)∑
k=1
λ′ka
′
ik
e λ′i ≤ 0 para
todo i ∈ {1, . . . , r(x)}.
Associando multiplicadores nulos para as restrições não ativas,
podemos estender λ′ ∈ Rr(x) para um λ ∈ R2m de tal forma que:
∇f(x) = A′tλ
=
[ −I
I
]t
λ
=
[ −I I ]λ
= (−λ1 + λm+1, . . . ,−λi + λi+m, . . . ,−λm + λ2m)t
Como g = ∇f(x), segue então que:
−gi = λi − λi+m ∀i = 1, . . . ,m
Pelas condições de folgas complementares, para todo i = 1, . . . ,m
148
sabemos também que:
λi(ai − xi) = 0
λi+m(xi − bi) = 0
Da deﬁnição de d, temos que:
di =
{
0 se (xi = ai e gi ≥ 0) ou (xi = bi e gi ≤ 0)
−gi caso contrário
Portanto para provar que d = 0, basta provar que di = −gi =
−(∇f(x))i = − ∂f∂xi = 0 se (xi 6= ai ou gi < 0) e (xi 6= bi ou gi >
0). Para o caso em que gi = 0, então essa condição apenas pode
valer se (xi 6= ai) e (xi 6= bi).
Supondo então (xi 6= ai) e (xi 6= bi), isso signiﬁca que as restrições
ai−xi ≤ 0 e xi−bi ≤ 0 não estão ativas, e portanto os respectivos
multiplicadores λi (correspondente a ai − xi ≤ 0) e λi+m (corres-
pondente a xi − bi ≤ 0) deve ser nulos (pelas condições de folgas
complementares). Daí segue que di = −gi = λi−λi+m = 0−0 = 0.
Portanto, d = 0.
⇒ Suponhamos que d = 0. Da deﬁnição de d, temos que:
di =
{
0 se (xi = ai e gi ≥ 0) ou (xi = bi e gi ≤ 0)
−gi = 0 caso contrário
Seja λ ∈ R2m− .
Pela deﬁnição de d, temos que di = −gi quando (xi 6= ai ou gi <
0) e (xi 6= bi ou gi > 0). Como gi = 0 nesse caso, então essa
condição apenas pode valer se (xi 6= ai) e (xi 6= bi), ou seja, gi = 0
quando nenhuma das restrições ai − xi ≤ 0 (correspondente ao
multiplicador λi) ou xi − bi ≤ 0 (correspondente ao multiplicador
λi+m) está ativa em x . Portanto, para i tal que di = −gi = 0,
deﬁnamos λi = λi+m = 0.
Se gi > 0, deﬁnimos λi = −gi e λm+i = 0. Se gi < 0, deﬁnimos
λi = 0 e λm+i = gi.
Logo, pela deﬁnição de λ temos λi ≤ 0 ∀i = 1, . . . ,m e
149
∇f(x) = (−λ1 + λm+1, . . . ,−λi + λi+m, . . . ,−λm + λ2m)t
=
[ −I I ]λ
=
[ −I
I
]t
λ
= A′tλ
Portanto, pelo teorema 9.1 (p. 69 do livro da Ana), x satisfaz a
condição de otimalidade de primeira ordem.
(c) Usando essa direção e x0 = (0, 3)t ache a solução do seguinte
problema:
minimizar f(x, y) = x2 + y2
s.a. a1 = 0 ≤ x ≤ b1 = 4
a2 = 1 ≤ y ≤ b2 = 3
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = x2 + y2
s.a. −x+ 0y ≤ 0
x+ 0y ≤ 4
0x− y ≤ −1
0x+ y ≤ 3
Nesse caso, temos que A =

−1 0
1 0
0 −1
0 1
 ∈ R4×2 e b =

0
4
−1
3
 ∈
R2m.
Temos que o gradiente de f é dado por:
150
∇f(x, y) = (∂f
∂x
,
∂f
∂y
)t
= (2x, 2y)t
Além disso, a hessiana de f é dada por:
∇2f(x, y) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
2 0
0 2
]
Como∇2f(x, y) > 0, a condição de otimalidade de segunda ordem
é satisfeita para todos (x, y) ∈ R2.
Seja d a direção dada pelo enunciado, isto é:
di =
{
0 se (xi = ai e gi ≥ 0) ou (xi = bi e gi ≤ 0)
−gi = 0 caso contrário
Como x01 = 0 = a1 e g1 = 2(0) = 0 ≤ 0, temos d1 = 0. Como
x02 = 3 = b2 e g2 = 2(3) = 6 > 0, temos d2 = −g2 = −6. Poranto,
d = (0,−6)t.
Temos que I(x0) = 1, 4. Para i 6∈ I(x0), temos
at2d = (1, 0)
t(0,−6) = 0
at3d = (0,−1)t(0,−6) = 6 > 0
Portanto, o tamanho máximo do passo é:
151
α¯ =
b3 − at3x0
at3d
=
−1− (0,−1)t(0, 3)
(0,−1)t(0,−6)
=
−1 + 3
6
=
1
3
Seja α ∈ (0, α¯ = 1
3
], e deﬁnimos φ(α) = f(x0 + αd). Temos que:
φ(α) = f(x0 + αd)
= f((0, 3)t + α(0,−6)t)
= f(0, 3− 6α)
= 02 + (3− 6α)2
= 36α2 − 36α + 9
Como
φ′(α) = 72α− 36
< 0 para α ∈ (0, α¯ = 1
3
]
, temos que α∗ = α¯ = 1
3
é o minimizador de φ em (0, α¯]
Logo, x∗ = x0 + αd = (0, 3 − 61
3
)t = (0, 1)t é um ponto viável.
Temos que os elementos para a veriﬁcação das condições de oti-
malidade a serem deﬁnidos são:
152
I(x∗) = {j ∈ {1, . . . ,m} | atjx∗ = bj}
= {1, 3}
r(x∗) = |I(x∗)|
= 2
AtI =
[ −1 0
0 −1
]
∇f(x∗) = AtIλ, λi ≤ 0, λ ∈ Rr(x
∗) = R2
(0, 1)t =
[ −1 0
0 −1
]
(λ1, λ2)
t
(λ1, λ2)
t = (0,−1)t
Portanto, x∗ = (0, 1)t satisfaz as condições de otimalidade de pri-
meira e segunda ordem, e portanto é minimizador local de f no
conjunto viável. Mais ainda, x∗ é minimizador global de f no
conjunto viável, pois f(x, y) = x2 + y2, com x2 ≥ 0 e y2 ≥ 0.
Logo, para minimizar f , basta minimizar x e y individualmente
no conjunto viável, o que implica que x∗ = (0, 1)t é a solução
ótima.
9.5 Considere o seguinte problema:
minimizar f(x)
s.a. at1x ≤ b1
at2x ≤ b2
Suponha que as duas restrições são ativas em x¯ e que ∇f(x¯) é combi-
nação linear positiva de a1 e a2. Construa duas direções factíveis e de
descida diferentes em x¯. Justiﬁque!
Como as duas restrições são ativas em x¯, temos at1x¯ ≤ b1 e at1x¯ ≤ b1.
Como∇f(x¯) é combinação linear positiva de a1 e a2, existem λ1, λ2 > 0
tais que ∇f(x¯) = λ1a1 + λ2a2.
Sabemos (pela aﬁrmação 9.3 da p. 67 do livro da Ana) que d ∈ Rn é
factível em x¯ ⇐⇒ atjd ≤ 0 para todo j ∈ I(x¯) = {1, 2}.
153
Sejam Z1 uma matriz ortogonal (obtida via processo de Gram-Schimidt)
cujas colunas formam uma base de Nu([a1]), e Z2 uma matriz ortogo-
nal (obtida via processo de Gram-Schimidt) cujas colunas formam uma
base de Nu([a2]).
Deﬁnamos d1 = PNu([a1])(−∇f(x¯)) = −Z1Zt1∇f(x¯) e d2 = PNu([a2])(−∇f(x¯)) =
−Z2Zt2∇f(x¯).
Supondo a1 6= a2, temos Z1 6= Z2 e portanto d1 6= d2.
Como d1, d2 são projeções ortogonais sobre Nu([a1]), Nu([a2]) (respec-
tivamente), para k = 1, 2 temos:
dk ⊥ −dk −∇f(x¯)
dtk(−dk −∇f(x¯)) = 0
−dtkdk −∇tf(x¯)dk = 0
∇tf(x¯)dk = −dtkdk
∇tf(x¯)dk = −‖dk‖2
=< 0
Logo, dk (k = 1, 2) é direção de descida. Portanto, temos que:
∇tf(x¯)d1 < 0
(λ1a1 + λ2a2)
td1 < 0
λ1a
t
1d1 + λ2a
t
2d1 < 0
(d1 ∈ Nu([a1])⇒ at1d1 = 0)
λ2a
t
2d1 < 0
at2d1 < 0 (pois λ2 > 0)
Logo, como at1d1 = 0 ≤ 0 e at2d1 < 0 ≤ 0, temos que d1 também é uma
direção factível.
Analogamente para d2, segue que:
154
∇tf(x¯)d2 < 0
(λ1a1 + λ2a2)
td2 < 0
λ1a
t
1d2 + λ2a
t
2d2 < 0
(d2 ∈ Nu([a2])⇒ at2d2 = 0)
λ1a
t
1d2 < 0
at1d2 < 0 (pois λ1 > 0)
Logo, como at1d2 = 0 ≤ 0 e at2d2 < 0 ≤ 0, temos que d2 também é uma
direção factível.
Portanto, d1 e d2 são duas direções diferentes (se a1 não é múltiplo de
a2), de descida e factíveis.
9.6 Considere os problemas primal e dual de programação linear:
minimizar ctx maximizar bty
s.a. Ax = b s.a. Aty ≤ c
x ≥ 0
Seja x˜ solução do primal.
parcialmente resolvido
(a) Prove que bty ≤ ctx para quaisquer x e y factíveis;
Como x, y são factíveis, temos Ax = b, x ≥ 0 e Aty ≤ c. Daí vem
que:
bty = (Ax)ty
= xtAty
= xtAty
(x ≥ 0 e Aty ≤ c⇒ xtAty ≤ xtc)
≤ xtc
= ctx
(c) Prove que ctx˜ = btλ˜.
Observemos que o dual equivale a
155minimizar g(x) = bty
s.a. c2(x) = A
ty − c ≤ 0
Deﬁnamos c2(x) = A
ty − c. Como a linearidade das restrições é
uma condição de qualiﬁcação, se y∗ é um mínimizador do dual,
pelo teorema 2.4.1 do livro do Martínez (p. 22, condições KKT
gerais) existem únicos µ∗i > 0 para todo i ∈ I(y∗) (µ∗i = 0 para
todo i 6∈ I(y∗) ) tais que :
µi((A
t)iy
∗ − ci) = 0, i = 1, . . . , p
Portanto,
ctx˜ =
∑
i∈I(x˜)
x˜ici
(ci = aiy
∗ ⇐⇒ µi > 0 e ci 6= aiy∗ ⇐⇒ µi = 0)
=
∑
i∈I(x˜)
x˜i(A
t)iy
∗
= (
∑
i∈I(x˜)
x˜i(A
t)i)y
∗
= x˜tAty∗
= (Ax˜)ty∗
= bty∗
Como y∗ = λ˜, segue que ctx˜ = btλ˜.
(b) Prove que o vetor dos multiplicadores de Lagrange λ˜ associado às
restrições de igualdade em x˜ é solução ótima do dual;
Do item a) temos que bty ≤ ctx para quaisquer x, y viáveis. Em
particular, se y∗ é a solução do dual e x˜ é a solução do primal,
temos que bty∗ ≤ ctx˜. Pelo item c) temos que ctx˜ = btλ˜. Logo,
bty∗ ≤ ctx˜ = btλ˜.
156
Observemos que o primal equivale a
minimizar f(x) = ctx
s.a. h(x) = Ax− b = 0
c(x) = −x ≤ 0
Deﬁnamos h(x) = Ax − b e c(x) = −x. Como a linearidade das
restrições é uma condição de qualiﬁcação, se x˜ é um mínimizador
do primal, pelo teorema 2.4.1 do livro do Martínez (p. 22, con-
dições KKT gerais) existem únicos λ˜ ∈ Rm e µ˜i > 0 para todo
i ∈ I(x˜) (µ˜i = 0 para todo i 6∈ I(x˜) ) tais que :
∇f(x˜)−
m∑
i=1
λ˜i∇hi(x˜) +
p∑
i=1
µ˜i∇ci(x˜) = 0
c−
m∑
i=1
λ˜iai +
p∑
i=1
µ˜i(−1) = 0
c− Atλ˜− 1tµ˜ = 0
Atλ˜ = c− 1tµ˜
(1tµ˜ ≥ 0⇒)
Atλ˜ ≤ c
Logo, λ˜ é viável no dual e é tal que bty∗ ≤ ctx˜ = btλ˜. Como o dual
é um problema de maximização, segue que bty∗ = btλ˜, e portanto
y∗ = λ˜ (ou seja, λ˜ é a solução do dual).
9.7 Considere o problema de programação quadrática
minimizar f(x) = 1
2
xtBx+ ctx
s.a. Ax = b
x ≥ 0
Seja x˜ uma solução regular do problema, e λ˜ o vetor de multiplicadores
de Lagrange associado às restriçoes de igualdade. Prove que
157
f(x˜) =
1
2
(ctx˜+ btλ˜)
Observemos que esse problema equivale a
minimizar f(x) = 1
2
xtBx+ ctx
s.a. h(x) = Ax− b = 0
c(x) = −x ≤ 0
Deﬁnamos h(x) = Ax− b e c(x) = −x. Como x˜ é uma solução regular
do problema, pelo teorema 2.4.1 do livro do Martínez (p. 22, condições
KKT gerais) existem únicos λ˜ ∈ Rm e µ˜i > 0 para todo i ∈ I(x˜)
(µ˜i = 0 para todo i 6∈ I(x˜) ) tais que :
∇f(x˜)−
m∑
i=1
λ˜i∇hi(x˜) +
p∑
i=1
µ˜i∇ci(x˜) = 0
Bx˜+ c−
m∑
i=1
λ˜iai +
p∑
i=1
µ˜i(−1) = 0
Bx˜+ c− Atλ˜− 1tµ˜ = 0
⇒
x˜tBx˜+ x˜tc− x˜tAtλ˜− 1tµ˜ = 0
x˜tBx˜+ ctx˜− (Ax˜)tλ˜− 1tµ˜ = 0
x˜tBx˜+ ctx˜− btλ˜− 1tµ˜ = 0
Para bi 6= 0 (i = 1, . . . , n), temos que x˜i = 0 não é solução (pois
0 = atix˜i = bi 6= 0), e então µ˜ = 0. Logo,
x˜tBx˜+ ctx˜− btλ˜ = 0
Queremos provar que:
158
f(x˜) =
1
2
(ctx˜+ btλ˜)
1
2
x˜tBx˜+ ctx˜ =
1
2
(ctx˜+ btλ˜)
x˜tBx˜+ 2ctx˜ = ctx˜+ btλ˜
x˜tBx˜+ ctx˜− btλ˜ = 0
Sendo que a última linha é consequência das condições KKT. Logo,
f(x˜) = 1
2
(ctx˜+ btλ˜).
9.8 Resolva o seguinte problema de otimização
maximizar P (x) = x1x2 . . . xn
s.a. x1 + x2 + . . .+ xn = c
x ≥ 0
Deduza as seguintes desigualdades entre as médias aritmética e geomé-
trica:
1
n
n∑
i=1
xi ≥
(
n∏
i=1
xi
)1/n
Como − ln(x) é uma função estritamente decrescente para x ≥ 0, temos
que o problema original é equivalente a:
minimizar f(x) := − ln(P (x)) = −
n∑
i=1
ln(xi)
s.a. x1 + x2 + · · ·+ xn − c = 0
−x ≤ 0
Como xn = c−x1−· · ·−xn−1, então o problema anterior é equivalente
ao problema irrestrito:
159
minimizar g(x) := − ln(c− x1 − · · · − xn−1)−
n−1∑
i=1
ln(xi)
Este problema possui solução (global), já que g é contínua e coerciva
em Rn−1, que é fechado e não vazio. Logo, se x∗ é minimizador de g,
temos que:
∇g(x∗) = 0
∂g
∂xi
(x∗) = 0 ∀i = 1, . . . , n− 1
− 1
x∗i
− 1
c− x∗1 − · · · − x∗n−1
(−1) = 0 ∀i = 1, . . . , n− 1
x∗i = c− x∗1 − · · · − x∗n−1 ∀i = 1, . . . , n− 1
2 1 · · · 1
1 2 · · · 1
.
.
.
.
.
.
.
.
.
.
.
.
1 · · · 1 2


x∗1
x∗2
.
.
.
x∗n
 =

c
c
.
.
.
c

x∗i =
c
n
∀i = 1, . . . , n− 1
Logo, como x∗ é o minimizador de g, temos :
160
g(x∗) ≤ g(x) ∀x ∈ Rn−1
− ln(c− c
n
− · · · − c
n
)−
n−1∑
i=1
ln(
c
n
) ≤ − ln(xn)−
n−1∑
i=1
ln(xi)
− ln(c− (n− 1)c
n
)−
n−1∑
i=1
ln(
c
n
) ≤ −
n∑
i=1
ln(xi)
− ln( c
n
)−
n−1∑
i=1
ln(
c
n
) ≤ −
n∑
i=1
ln(xi)
−
n∑
i=1
ln(
c
n
) ≤ −
n∑
i=1
ln(xi)
− ln(
n∏
i=1
c
n
) ≤ − ln(
n∏
i=1
xi)
ln([
c
n
]n) ≥ ln(
n∏
i=1
xi)
[
c
n
]n ≥
n∏
i=1
xi
c
n
≥
(
n∏
i=1
xi
)1/n
(x1 + x2 + · · ·+ xn = c, c ∈ R+)
1
n
n∑
i=1
xi ≥
(
n∏
i=1
xi
)1/n
∀x ∈ Rn
9.9 Suponha que S := {x ∈ Rn | Ax = b, x ≥ 0} é não-vazio, onde
A ∈ Rm×n e b ∈ Rm. Seja 0 ≤ z ∈ Rn tal que At(Az − b) = γ ≥ 0 e
ztγ = 0. Prove que Az = b.
parcialmente resolvido
Suponhamos que A tenha posto completo. Pelo exercício 1.2, AtA é
não-singular. Portanto, temos que:
161
At(Az − b) = γ
AtAz − Atb = γ
AtAz = γ + Atb
z = (AtA)−1(γ + Atb)
Az = A(AtA)−1(γ + Atb)
Az = A(AtA)−1γ + A(AtA)−1Atb
Além disso, também vale que:
At(Az − b) = γ
AtAz − Atb = γ
ztAtAz − ztAtb = ztγ = 0
(Az)tAz − (Az)tb = 0
(Az)t(Az − b) = 0
(se Aiz 6= 0 ∀i)
Az − b = 0
Az = b
1.10 Capítulo 10 - Método de restrições ativas
10.1 Resolva graﬁcamente o problema
minimizar x2 − xy + y2 − 3x
s.a. x+ y ≤ 4
x, y ≥ 0
usando um método de restrições ativas a partir do ponto x0 = (0, 0)t
Obs.: Como não existe um modo �puramente gráﬁco� de se resolver o
problema, então a resolução foi feita algebricamente (já que a parte grá-
ﬁca serve apenas como uma visualização geométrica do procedimento
algébrico).
162
O conjunto viável é dado pela ﬁgura a seguir:
Figura 9: Conjunto viável gerado pelo WolframAlpha .
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = x2 − xy + y2 − 3x
s.a. x+ y ≤ 4
−x+ 0y ≤ 0
0x− y ≤ 0
Nesse caso, temos que A =
 1 1−1 0
0 −1
 ∈ R3×2 e b =
 40
0
 ∈ R3.
Temos que o gradiente de f é dado por:
∇f(x, y) = (∂f
∂x
,
∂f
∂y
)t
= (2x− y − 3,−x+ 2y)t
Além disso, a hessiana de f é dada por:
163
∇2f(x, y) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
2 −1
−1 2
]
De acordo com o algoritmo 10.1 (método de restrições ativas) da página
77 do livro da Ana, as iterações (a partir de x0 = (0, 0)t) são dadas
por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {2, 3}
r(x0) = |I0|
= 2
AI0 =
[ −1 0
0 −1
]
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(−3, 0)t =
[ −1 0
0 −1
]
(λ1, λ2)
t
(λ1, λ2)
t = (3, 0)t
Como o sistema tem solução, vamos ao passo iii.
1.iii Veriﬁcar os sinais de λi∀i ∈ {1, . . . , r(xk)}
Temos que λ1 = 3 > 0. Logo, vamos ao passo vii.
1.vii Escolher uma direção factível e de descida dk em x
k
Seja A˜I a matriz obtida retirando a linha aij correspondente ao
multiplicador λj > 0. Como λ1 = 3 multiplica os elementos da
164
coluna 1 de AtI0 no sistema do passo ii, então λ1 = 3 multiplica
os elementos da linha 1 de AI0 , e portanto A˜I0 =
[
0 −1 ]
(que
é AI0 sem a linha 1).
Seja agora
d0 = PNu(A˜I0 )
(−∇f(x0))
= (I − A˜tI0(A˜I0A˜tI0)−1A˜I0)(3, 0)t
=
[
1 0
0 0
]
(3, 0)t
= (3, 0)t
Pelo item ii) da prova do teorema 9.1 (p.69 do livro da Ana),
temos que d0 é uma direção factível e de descida em x
0
.
1.viii Igual ao passo v: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I0 = {2, 3}⇒ Ic0 = {1}, as linhas a serem analisadas são:
at1d0 = (1, 1)
t(3, 0) = 3 > 0
Portanto, o tamanho máximo do passo é:
α¯ =
b1 − at1x0
at1d0
=
4− (1, 1)t(0, 0)
(1, 1)t(3, 0)
=
4
3
1.ix Realizar busca linear em (0, α¯] garantindo descenso suﬁciente. Fa-
zer xk+1 = xk + αkdk, k = k + 1 e ir ao passo 1 .
Seja α ∈ (0, α¯ = 4
3
], e deﬁnimos φ(α) = f(x0 + αd0). Temos que:
165
φ(α) = f(x0 + αd0)
= f((0, 0)t + α(3, 0)t)
= f(3α, 0)
= 9α2 − 9α
Logo, o minimizador de φ(α) é α0 = − b2a = − −92(9) = 12 ∈ (0, α¯].
Daí vem que
x1 = x0 + α0d0
= (0, 0)t +
1
2
(3, 0)t
= (
3
2
, 0)t
2.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I1 = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {3}
r(x1) = |I1|
= 1
AI1 =
[
0 −1 ]
Como I1 6= ∅, vamos ao passo ii.
2.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x1) = AtI1λ
(0,−3
2
)t =
[
0
−1
]
λ
λ =
3
2
Como o sistema tem solução, vamos ao passo iii.
166
2.iii Veriﬁcar os sinais de λi∀i ∈ {1, . . . , r(xk)}
Temos que λ = 3
2
> 0. Logo, vamos ao passo vii.
2.vii Escolher uma direção factível e de descida dk em x
k
Seja d1 = −∇f(x1) = (0, 32)t.
Como r(x1) = 1 , pelo item ii) da prova do teorema 9.1 (p.69 do
livro da Ana), temos que d1 é uma direção factível e de descida
em x1.
2.viii Igual ao passo v: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I1 = {3} ⇒ Ic1 = {1, 2}, as linhas a serem analisadas são:
at1d1 = (1, 1)
t(0,
3
2
) =
3
2
> 0
at2d1 = (−1, 0)t(0,
3
2
) = 0 ≤ 0
Portanto, o tamanho máximo do passo é:
α¯ =
b1 − at1x1
at1d1
=
4− (1, 1)t(3
2
, 0)
(1, 1)t(0, 3
2
)
=
5
2
3
2
=
5
3
2.ix Realizar busca linear em (0, α¯] garantindo descenso suﬁciente. Fa-
zer xk+1 = xk + αkdk, k = k + 1 e ir ao passo 1 .
Seja α ∈ (0, α¯ = 5
3
], e deﬁnimos φ(α) = f(x1 + αd1). Temos que:
167
φ(α) = f(x1 + αd1)
= f((
3
2
, 0)t + α(0,
3
2
)t)
= f(
3
2
, α
3
2
)
=
9
4
α2 − 9
4
α− 9
4
Logo, o minimizador de φ(α) é α1 = − b2a = −
− 9
4
2 9
4
= 1
2
∈ (0, α¯].
Daí vem que
x2 = x1 + α1d1
= (
3
2
, 0)t +
1
2
(0,
3
2
)t
= (
3
2
,
3
4
)t
3.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I2 = {j ∈ {1, . . . ,m} | atjx2 = bj}
= ∅
∇f(x2) = (−3
4
, 0)t
Como I2 = ∅ e ∇f(x2) 6= (0, 0)t, vamos ao passo vii.
3.vii Escolher uma direção factível e de descida em dk em x
k
Como I2 = ∅, x2 não está na fronteira do conjunto viável e por-
tanto qualquer direção é factível. Seja d2 = (
1
2
, 1
4
)t. Temos que:
∇tf(x2)d2 = (−3
4
, 0)t(
1
2
,
1
4
)
= −3
8
< 0
168
Logo, d2 = (
1
2
, 1
4
)t é factível e de descida em x2.
3.viii Igual ao passo v: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I2 = ∅ ⇒ Ic2 = {1, 2, 3}, as linhas a serem analisadas são:
at1d2 = (1, 1)
t(
1
2
,
1
4
) =
3
4
> 0
at2d2 = (−1, 0)t(
1
2
,
1
4
) = −1
2
≤ 0
at3d2 = (0,−1)t(
1
2
,
1
4
) = −1
4
≤ 0
Portanto, o tamanho máximo do passo é:
α¯ =
b1 − at1x2
at1d2
=
4− (1, 1)t(3
2
, 3
4
)
(1, 1)t(1
2
, 1
4
)
=
7
4
3
4
=
7
3
3.ix Realizar busca linear em (0, α¯] garantindo descenso suﬁciente. Fa-
zer xk+1 = xk + αkdk, k = k + 1 e ir ao passo 1 .
Seja α ∈ (0, α¯ = 7
3
], e deﬁnimos φ(α) = f(x2 + αd2). Temos que:
φ(α) = f(x2 + αd2)
= f((
3
2
,
3
4
)t + α(
1
2
,
1
4
)t)
= f(
3 + α
2
,
3 + α
4
)
=
3
16
α2 − 3
8
α− 45
16
169
Logo, o minimizador de φ(α) é α2 = − b2a = −
− 3
8
2 3
16
= 1 ∈ (0, α¯].
Daí vem que
x3 = x2 + α2d2
= (
3
2
,
3
4
)t + 1(
1
2
,
1
4
)t
= (2, 1)t
3.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I3 = {j ∈ {1, . . . ,m} | atjx3 = bj}
= ∅
∇f(x3) = (0, 0)t
Como I3 = ∅ e ∇f(x3) = (0, 0)t, encontramos um ponto estacio-
nário viável.
10.2 Considere o problema de maximizar f(x, y) = xy sujeita a x + y ≥ 1
e x + 2y ≤ 2. Aplique um método de restrições ativas, algébrica e
geometricamente, a partir dos seguintes pontos, até encontrar a solução.
Obs.: Como não existe um modo �puramente gráﬁco� de se resolver o
problema, então a resolução foi feita algebricamente (já que a parte grá-
ﬁca serve apenas como uma visualização geométrica do procedimento
algébrico).
O conjunto viável é dado pela ﬁgura a seguir:
Figura 10: Conjunto viável gerado pelo WolframAlpha .
170
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = −xy
s.a. −x− y ≤ −1
x+ 2y ≤ 2
Nesse caso, temos que A =
[ −1 −1
1 2
]
∈ R2×2 e b =
[ −1
2
]
∈ R2.
Temos que o gradiente de f é dado por:
∇f(x, y) = (∂f
∂x
,
∂f
∂y
)t
= (−y,−x)t
Além disso, a hessiana de f é dada por:
∇2f(x, y) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
0 −1
−1 0
]
(a) (1, 0)t
De acordo com o algoritmo 10.1 (método de restrições ativas) da
página 77 do livro da Ana, as iterações (a partir de x0 = (1, 0)t)
são dadas por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {1}
r(x0) = |I0|
= 1
AI0 =
[ −1 −1 ]
171
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(0,−1)t =
[ −1
−1
]
λ
não tem solução
Como o sistema não tem solução, vamos ao passo iv.
1.iv Achar dk ∈ Nu(AI0) tal que ∇tf(xk)dk < 0
Seja agora
d0 = PNu(AI0 )(−∇f(x0))
= (I − AtI0(AI0AtI0)−1AI0)(0, 1)t
=
[
1
2
−1
2−1
2
1
2
]
(0, 1)t
= (−1
2
,
1
2
)t
Pelo item ii) da prova do teorema 9.1 (p.69 do livro da Ana),
temos que d0 é uma direção factível e de descida em x
0
.
1.v Determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I0 = {1} ⇒ Ic0 = {2}, as linhas a serem analisadas são:
at2d0 = (1, 2)
t(−1
2
,
1
2
) =
1
2
> 0
Portanto, o tamanho máximo do passo é:
172
α¯ =
b2 − at2x0
at2d0
=
2− (1, 2)t(1, 0)
(1, 2)t(−1
2
, 1
2
)
=
1
1
2
= 2
1.vi Realizar busca linear em (0, α¯] garantindo descenso suﬁciente..
Seja α ∈ (0, α¯ = 2], e deﬁnimos φ(α) = f(x0 + αd0). Temos
que:
φ(α) = f(x0 + αd0)
= f((1, 0)t + α(−1
2
,
1
2
)t)
= f(1− α
2
,
α
2
)
=
1
4
α2 − 1
2
α
Logo, o minimizador de φ(α) é α0 = − b2a = −
− 1
2
2 1
4
= 1 ∈ (0, α¯].
Daí vem que
x1 = x0 + α0d0
= (1, 0)t + 1(−1
2
,
1
2
)t
= (
1
2
,
1
2
)t
2.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
173
I1 = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {1}
r(x1) = |I1|
= 1
AI1 =
[ −1 −1 ]
Como I1 6= ∅, vamos ao passo ii.
2.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x1) = AtI1λ
(−1
2
,−1
2
)t =
[ −1
−1
]
λ
λ =
1
2
Como o sistema tem solução, vamos ao passo iii.
2.iii Veriﬁcar o sinal de λ
Como λ = 1
2
> 0, vamos ao passo vii
2.vii Escolher uma direção factível e de descida dk em x
k
Seja d1 = (
1
2
, 0)t. Temos que:
∇tf(x1)d1 = (−1
2
,−1
2
)t(
1
2
, 0)
= −1
4
< 0
Logo, d1 é de descida em x
1
. Para j ∈ I(x1) = {1}, temos
também que:
atj = a
t
1d = (−1,−1)t(
1
2
, 0) = −1
2
≤ 0
174
Logo, d1 é factível em x
1
(pela aﬁrmação 9.3 da p. 67 do livro
da Ana).
Portanto, d1 = (
1
2
, 0)t é uma direção factível e de descida em
x1.
2.viii Igual ao passo 5: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I1 = {1} ⇒ Ic1 = {2}, as linhas a serem analisadas são:
at2d1 = (1, 2)
t(
1
2
, 0) =
1
2
> 0
Portanto, o tamanho máximo do passo é:
α¯ =
b2 − at2x1
at2d1
=
2− (1, 2)t(1
2
, 1
2
)
(1, 2)t(1
2
, 0)
=
1
2
1
2
= 1
2.ix Realizar buscalinear em (0, α¯] garantindo descenso suﬁciente.
Fazer xk+1 = xk + αkdk, k = k + 1 e ir ao passo 1.
Seja α ∈ (0, α¯ = 1], e deﬁnimos φ(α) = f(x0 + αd0). Temos
que:
φ(α) = f(x1 + αd1)
= f((
1
2
,
1
2
)t + α(
1
2
, 0)t)
= f(
1 + α
2
,
1
2
)
= −1
4
α− 1
4
Logo, o minimizador de φ(α) é α1 = 1 ∈ (0, α¯].
Daí vem que
175
x2 = x1 + α1d1
= (
1
2
,
1
2
)t + 1(
1
2
, 0)t)
= (1,
1
2
)t
3.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I2 = {j ∈ {1, . . . ,m} | atjx2 = bj}
= {2}
r(x2) = |I2|
= 1
AI2 =
[
1 2
]
Como I2 6= ∅, vamos ao passo ii.
3.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x2) = AtI2λ
(−1
2
,−1)t =
[
1
2
]
λ
λ = −1
2
Como o sistema tem solução, vamos ao passo iii.
3.iii Veriﬁcar o sinal de λ
Como λ = −1
2
≤ 0, x2 = (1, 1
2
)t é estacionário e o algoritmo
para.
(b) (2, 0)t
De acordo com o algoritmo 10.1 (método de restrições ativas) da
página 77 do livro da Ana, as iterações (a partir de x0 = (2, 0)t)
são dadas por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
176
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {2}
r(x0) = |I0|
= 1
AI0 =
[
1 2
]
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(0,−2)t =
[
1
2
]
λ
não tem solução
Como o sistema não tem solução, vamos ao passo iv.
1.iv Achar dk ∈ Nu(AI0) tal que ∇tf(xk)dk < 0
Seja agora
d0 = PNu(AI0 )(−∇f(x0))
= (I − AtI0(AI0AtI0)−1AI0)(0, 2)t
=
[
4
5
−2
5−2
5
1
5
]
(0, 2)t
= (−4
5
,
2
5
)t
Pelo item ii) da prova do teorema 9.1 (p.69 do livro da Ana),
temos que d0 é uma direção factível e de descida em x
0
.
1.v Determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I0 = {2} ⇒ Ic0 = {1}, as linhas a serem analisadas são:
at1d0 = (−1,−1)t(−
4
5
,
2
5
) =
2
5
> 0
177
Portanto, o tamanho máximo do passo é:
α¯ =
b1 − at1x0
at1d0
=
−1− (−1,−1)t(2, 0)
(−1,−1)t(−4
5
, 2
5
)
=
1
2
5
=
5
2
1.vi Realizar busca linear em (0, α¯] garantindo descenso suﬁciente..
Seja α ∈ (0, α¯ = 5
2
], e deﬁnimos φ(α) = f(x0 + αd0). Temos
que:
φ(α) = f(x0 + αd0)
= f((2, 0)t + α(−4
5
,
2
5
)t)
= f(2− 4α
5
,
2α
5
)
=
8
25
α2 − 4
5
α
Logo, o minimizador de φ(α) é α0 = − b2a = −
− 4
5
2 8
25
= 5
4
∈ (0, α¯].
Daí vem que
x1 = x0 + α0d0
= (2, 0)t +
5
4
(−4
5
,
2
5
)t
= (1,
1
2
)t
2.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
178
I1 = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {2}
r(x1) = |I1|
= 1
AI1 =
[
1 2
]
Como I1 6= ∅, vamos ao passo ii.
2.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x1) = AtI1λ
(−1
2
,−1)t =
[
1
2
]
λ
λ = −1
2
Como o sistema tem solução, vamos ao passo iii.
2.iii Veriﬁcar o sinal de λ
Como λ = −1
2
≤ 0, x1 = (1, 1
2
)t é estacionário e o algoritmo
para.
10.3 Resolva algébrica ou graﬁcamente o problema abaixo por um método
de restrições ativas, tomando como ponto inicial (2, 1)t e justiﬁcando
todos os passos.
minimizar (x+ 1)2 + (y − 1)2
s.a. x+ y ≥ 1
x+ y ≤ 3
x, y ≥ 0
O conjunto viável é dado pela ﬁgura a seguir:
179
Figura 11: Conjunto viável gerado pelo WolframAlpha .
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = (x+ 1)2 + (y − 1)2
s.a. −x− y ≤ −1
x+ y ≤ 3
−x+ 0y ≤ 0
0x− y ≤ 0
Nesse caso, temos que A =

−1 −1
1 1
−1 0
0 −1
 ∈ R4×2 e b =

−1
3
0
0
 ∈ R4.
Temos que o gradiente de f é dado por:
∇f(x, y) = (∂f
∂x
,
∂f
∂y
)t
= (2x+ 2, 2y − 2)t
Além disso, a hessiana de f é dada por:
180
∇2f(x, y) =
[
∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂y
∂2f
∂y2
]
=
[
2 0
0 2
]
De acordo com o algoritmo 10.1 (método de restrições ativas) da página
77 do livro da Ana, as iterações (a partir de x0 = (2, 1)t) são dadas
por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {2}
r(x0) = |I0|
= 1
AI0 =
[
1 1
]
Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(6, 0)t =
[
1 1
]
λ
(não tem solução)
Como o sistema não tem solução, vamos ao passo iv.
1.iv Achar dk ∈ Nu(AI0) tal que ∇tf(xk)dk < 0
Seja agora
181
d0 = PNu(AI0 )(−∇f(x0))
= (I − AtI0(AI0AtI0)−1AI0)(−6, 0)t
=
[
1
2
−1
2−1
2
1
2
]
(−6, 0)t
= (−3, 3)t
Pelo item ii) da prova do teorema 9.1 (p.69 do livro da Ana),
temos que d0 é uma direção factível e de descida em x
0
.
1.v Determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I0 = {2} ⇒ Ic0 = {1, 3, 4}, as linhas a serem analisadas são:
at1d0 = (−1,−1)t(−3, 3) = 0 ≤ 0
at3d0 = (−1, 0)t(−3, 3) = 3 > 0
at4d0 = (0,−1)t(−3, 3) = −3 ≤ 0
Portanto, o tamanho máximo do passo é:
α¯ =
b3 − at3x0
at3d0
=
0− (−1, 0)t(2, 1)
(−1, 0)t(−3, 3)
=
2
3
1.vi Realizar busca linear em (0, α¯] garantindo descenso suﬁciente..
Seja α ∈ (0, α¯ = 2
3
], e deﬁnimos φ(α) = f(x0 + αd0). Temos que:
φ(α) = f(x0 + αd0)
= f((2, 1)t + α(−3, 3)t)
= f(2− 3α, 1 + 3α)
= 18α2 − 18α + 9
182
Logo, o minimizador de φ(α) é α0 = − b2a = − −182(18) = 12 ∈ (0, α¯].
Daí vem que
x1 = x0 + α0d0
= (2, 1)t +
1
2
(−3, 3)t
= (
1
2
,
5
2
)t
2.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I1 = {j ∈ {1, . . . ,m} | atjx1 = bj}
= {2}
r(x1) = |I1|
= 1
AI1 =
[
1 1
]
Como I1 6= ∅, vamos ao passo ii.
2.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x1) = AtI1λ
(3, 3)t =
[
1 1
]
λ
λ = 3
Como o sistema tem solução, vamos ao passo iii.
2.iii Veriﬁcar o sinal de λ
Como λ = 3 > 0, vamos ao passo vii.
2.vii Escolher uma direção factível e de descida dk em x
k
Seja d1 = (−12 ,−32)t. Temos que:
183
∇tf(x1)d1 = (3, 3)t(−1
2
,−3
2
)
= −12
2
= −6
< 0
Logo, d1 é de descida em x
1
. Para j ∈ I(x1) = {2}, temos também
que:
atj = a
t
2d = (1, 1)
t(−1
2
,−3
2
) = −4
2
= −2 ≤ 0
Logo, d1 é factível em x
1
(pela aﬁrmação 9.3 da p. 67 do livro da
Ana).
Portanto, d1 = (−12 ,−32)t é uma direção factível e de descida em
x1.
2.viii Igual ao passo 5: determinar α¯ = min
atjdk>0, a
t
jx
k<bi
{ bj−atjxk
atjdk
}
Como I1 = {2} ⇒ Ic1 = {1, 3, 4}, as linhas a serem analisadas são:
at1d1 = (−1,−1)t(−
1
2
,−3
2
) = 2 > 0
at3d1 = (−1, 0)t(−
1
2
,−3
2
) =
1
2
> 0
at4d1 = (0,−1)t(−
1
2
,−3
2
) =
3
2
> 0
O valor de cada uma das frações é:
184
b1 − at1x1
at1d1
=
−1− (−1,−1)t(1
2
, 5
2
)
2
=
2
2
= 1
b3 − at3x1
at3d1
=
0− (−1, 0)t(1
2
, 5
2
)
1
2
=
1
2
1
2
= 1
b4 − at4x1
at4d1
=
0− (0,−1)t(1
2
, 5
2
)
3
2
=
5
2
3
2
=
5
3
Portanto, o tamanho máximo do passo é igual à fração de valor
mínimo:
α¯ = 1
2.ix Realizar busca linear em (0, α¯] garantindo descenso suﬁciente..
Seja α ∈ (0, α¯ = 1], e deﬁnimos φ(α) = f(x1 + αd1). Temos que:
φ(α) = f(x1 + αd1)
= f((
1
2
,
5
2
)t + α(−1
2
,−3
2
)t)
= f(
1− α
2
,
5− 3α
2
)
=
5
2
α2 − 6α + 9
2
185
Como
φ′(α) = 5α− 6
< 0 para α ∈ (0, α¯]
, o minimizador de φ(α) é α0 = α¯ = 1 ∈ (0, α¯].
Daí vem que
x2 = x1 + α1d1
= (
1
2
,
5
2
)t + 1(−1
2
,−3
2
)t
= (0, 1)t
3.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I2 = {j ∈ {1, . . . ,m} | atjx2 = bj}
= {1, 3}
r(x2) = |I2|
= 2
AI2 =
[ −1 −1
−1 0
]
Como I1 6= ∅, vamos ao passo ii.
3.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x2) = AtI2λ
(2, 0)t =
[ −1 −1
−1 0
] [
λ1
λ2
]
(λ1, λ2)
t = (0,−2)t
Como o sistema tem solução, vamos ao passo iii.
186
3.iii Veriﬁcar o sinal de λ
Como λi ≤0 ∀i, x2 = (0, 1)t é ponto estacionário. Logo, o algo-
ritmo para.
10.4 Aplique um método de restrições ativas para resolver
minimizar x2 + xy + 2y2 − 6x− 2y − 12z
s.a. x+ y + z = 2
−x+ 2y ≤ 3
x, y, z ≥ 0
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = x2 + xy + 2y2 − 6x− 2y − 12z
s.a. x+ y + z ≤ 2
−x− y − z ≤ −2
−x+ 2y + 0z ≤ 3
−x+ 0y + 0z ≤ 0
0x− y + 0z ≤ 0
0x+ 0y − z ≤ 0
Nesse caso, temos que A =

1 1 1
−1 −1 −1
−1 2 0
−1 0 0
0 −1 0
0 0 −1
 ∈ R
6×2
e b =

2
−2
3
0
0
0
 ∈
R6.
Temos que o gradiente de f é dado por:
∇f(x, y) = (∂f
∂x
,
∂f
∂y
,
∂f
∂z
)t
= (2x+ y − 6, x+ 4y − 2,−12)t
187
Além disso, a hessiana de f é dada por:
∇2f(x, y) =

∂2f
∂x2
∂2f
∂x∂y
∂2f
∂x∂z
∂2f
∂x∂y
∂2f
∂y2
∂2f
∂z∂y
∂2f
∂z∂x
∂2f
∂z∂y
∂2f
∂z2

=
 2 1 01 4 0
0 0 0

De acordo com o algoritmo 10.1 (método de restrições ativas) da página
77 do livro da Ana, as iterações (a partir de x0 = (0, 0, 2)t) são dadas
por:
1.i Determinar Ik := I(xk), r(xk) := |Ik| e AIk
I0 = {j ∈ {1, . . . ,m} | atjx0 = bj}
= {1, 2, 4, 5}
r(x0) = |I0|
= 4
AI0 =

1 1 1
−1 −1 −1
−1 0 0
0 −1 0

Como I0 6= ∅, vamos ao passo ii.
1.ii Resolver o sistema ∇f(xk) = AtIkλ
∇f(x0) = AtI0λ
(−6,−2,−12)t =
 1 −1 −1 01 −1 0 −1
1 −1 0 0


λ1
λ2
λ3
λ4

λ = (λ1, λ1 + 12,−6,−10)t, λ1 ∈ R
188
Em particular, λ = (−12, 0,−6,−10)t é solução do sistema. Como
o sistema tem solução, vamos ao passo ii.
1.iii Veriﬁcar o sinal de λ
Como para a solução λ = (−12, 0,−6,−10)t todas as componentes
são não positivas, temos que x0 = (0, 0, 2)t é ponto estacionário.
Logo, o algoritmo para.
1.11 Capítulo 11 - Minimização com restrições lineares
de igualdade e desigualdade
11.1 Considere o problema
minimizar
n∑
j=1
fj(xj)
s.a. etx =
n∑
j=1
xj = 1
x ≥ 0
com fj : R→ R, fj ∈ C1, j = 1, . . . , n e e = (1, . . . , 1)t. Prove que se x˜
é a solução do problema acima, então existe α ∈ R tal que f ′j(x˜j) = α
se x˜j > 0 e f
′
j(x˜j) ≥ α se x˜j = 0.
Temos que o problema em questão é equivalente a:
minimizar f(x) =
n∑
j=1
fj(xj)
s.a. Ax = b
Wx ≤ c
Nesse caso, temos que A =
[
1 . . . 1
] ∈ R1×n, b = 1 ∈ R, W =
−I ∈ Rn×n e c = (0, . . . , 0)t ∈ Rn.
Se x˜ é a solução do problema, deﬁnamos:
189
J (x˜) := {j ∈ {1, . . . , n} | wtjx˜ = cj}
= {i1, . . . , is(x˜)}
s(x˜) := |J (x˜)|
I(x˜) := {1} ∪ J (x˜)
r(x˜) := |I(x˜)|
Temos dois casos:
caso 1: s(x˜) = 0 (i.e., x˜j > 0 ∀j ∈ {1, . . . , n})
Pelas condições KKT para x˜ (válidas pois restrições lineares são con-
dições de qualiﬁcação), existe α ∈ R tal que:
∇f(x˜) = Atα
(f ′1(x1), . . . , f
′
n(xn))
t = (1, . . . , 1)tα
f ′j(x˜j) = α ∀j ∈ {1, . . . , n}
Como s(x˜) = 0, x˜j > 0 ∀j ∈ {1, . . . , n} e portanto f ′j(x˜j) = α para
todos x˜j > 0 . Como não existe i tal que x˜i = 0, então α satisfaz as
condições do enunciado.
caso 2: s(x˜) ≥ 1
Pelas condições KKT (teorema 11.1 da p. 82 do livro da Ana) para
x˜ (as condições são válidas pois restrições lineares são condições de
qualiﬁcação), existem α ∈ R e µ ∈ Rs(x˜) (com µk ≤ 0 para todo
k ∈ {1, . . . , s(x˜)}) tais que:
∇f(x˜) = Atα +W tJ (x˜)µ
(f ′1(x1), . . . , f
′
n(xn))
t = (1, . . . , 1)tα +W tJ (x˜)µ
Seja agora µ′ ∈ Rn tal que µ′i = µj ⇐⇒ wtix˜ = ci (onde µj é o
multiplicador correspondente à restrição wtjx˜ ≤ cj) e µ′i = 0 ⇐⇒
wtix˜ < ci .
190
Da deﬁnição de µ′ temos que µ′j(w
t
jx˜− cj) = 0 para todo j ∈ 1, . . . , n.
Logo, W tJ (x˜)µ = W
tµ′ = (−I)tµ′ = −Iµ′ = −µ′. Continuando a
inequação anterior, segue que:
(f ′1(x1), . . . , f
′
n(xn))
t = (1, . . . , 1)tα− µ′
(f ′1(x1), . . . , f
′
n(xn))
t = (α1 − µ′1, . . . , α1 − µ′n)t
f ′j(x˜j) = αj − µ′j ∀j ∈ {1, . . . , n}
Portanto (da deﬁnição de µ′), se wtjx˜ = cj (i.e., se x˜j = 0) teremos
µ′j ≤ 0⇒ −µ′j ≥ 0⇒ αj−µ′j ≥ α . Daí segue que f ′j(x˜j) = αj−µ′j ≥ α.
Ainda (também da deﬁnição de µ′), se wtjx˜ < cj (i.e., se x˜j > 0) teremos
µ′j = 0⇒ αj − µ′j = αj . Daí segue que f ′j(x˜j) = αj − µ′j = α.
Dos dois últimos parágrafos temos que α satisfaz as condições do enun-
ciado.
11.2 Considere o problema de minimização quadrática
minimizar f(x) = 1
2
xtHx+ ctx
s.a. Ax ≤ b
onde H ∈ Rn×n, c ∈ Rn, A ∈ Rm×n e b ∈ Rm
(a) Escreva as condições de otimalidade de segunda ordem
Pelo exercício 1.16)b), temos ∇f(x) = Hx + c e ∇2f(x) = H.
Seja x∗ um minimizador local do problema e deﬁnamos:
J (x∗) := {j ∈ {1, . . . , n} | atjx∗ = bj}
= {i1, . . . , is(x∗)}
s(x∗) := |J (x∗)|
I(x∗) := ∅ ∪ J (x∗)
r(x∗) := |I(x∗)|
B
191
Pelo teorema 11.2 (p. 82 do livro da Ana), as condições (necessá-
rias) de otimalidade de segunda ordem são:
(i) Existe µ ∈ Rs(x∗) (com µk ≤ 0 para todo k ∈ {1, 2, . . . , s(x∗)})
tal que:
∇f(x∗) = AtJ (x∗)µ
Hx∗ + c = AtJ (x∗)µ
(ii) yt∇2f(x)y = ytHy ≥ 0 para todo y ∈ Nu(AJ (x∗)). Em outras
palavras, H é semideﬁnida positiva em Nu(AJ (x∗)).
(b) Para H = I e c = 0, interprete esse problema geometricamente.
Nesse caso, o problema ﬁca:
minimizar
1
2
xtx = 1
2
n∑
i=1
x2i
s.a. Ax ≤ b
Portanto, geometricamente, o problema consiste em encontrar o
ponto do poliedro {x | Ax ≤ b} que está mais próximo da ori-
gem (pois
n∑
i=1
x2i é o quadrado da distância euclidiana de x até a
origem).
1.12 Capítulo 12 - Minimização com restrições não-lineares
de igualdade
12.1 Considere o problema de encontrar o ponto da superfície f(x, y, z) = 0
mais próximo da superfície g(x, y, z) = 0. Formule esse problema como
um sistema não-linear. Invente exemplos!
parcialmente resolvido (faltaram os exemplos)
Consideremos f : R3 → Rm dada por f(x1, y1, z1) = (f1(x1, y1, z1), . . . , fm(x1, y1, z1))t,
e g : R3 → Rp dada por g(x2, y2, z2) = (g1(x2, y2, z2), . . . , gp(x2, y2, z2))t.
Deﬁnamos também f.g : R6 → Rm+p (a concatenação de f e g) dada
por
f.g(x1, y1, z1, x2, y2, z2) = (f1(x1, y1, z1), . . . , fm(x1, y1, z1), g1(x2, y2, z2), . . . , gp(x2, y2, z2))
t
192
Segue imediatamente das deﬁnições anteriores que f(x1, y1, z1) = 0 e
g(x2, y2, z2) = 0 se, e somente se, f.g(x1, y1, z1, x2, y2, z2) = 0 (para
qualquer (x1, y1, z1, x2, y2, z2)
t ∈ R6). Portanto, o conjunto viável do
problema pode ser expresso pela restrição f.g(x1, y1, z1, x2, y2, z2) = 0.
Como queremos encontrar o ponto de f(x1, y1, z1) = 0 que está mais
próximo de g(x2, y2, z2) = 0, então o objetivo é minimizar a distância
entre (x1, y1, z1) e (x2, y2, z2) (ou seja, minimizar ‖(x1, y1, z1)− (x2, y2, z2)‖2).
Como a função
1
2
x2 é crescente para x ≥ 0, então esse problema também
equivale a minimizar
1
2
‖(x1, y1, z1)− (x2, y2, z2)‖22.
Portanto, esse problema equivale ao problema de minimização
(P): minimizar h(x) = 1
2
‖(x1, y1, z1)− (x2, y2, z2)‖22
= 1
2
[(x1 − x2)2 + (y1 − y2)2 + (z1 − z2)2]
s.a. f.g(x1, y1, z1, x2, y2, z2) = 0
Consideremos agora a função lagrangeana L : R6+(m+p) → R associada
ao problema acima, dada por L(x, λ) = h(x) + λtf.g(x) (com x =
(x1, y1, z1, x2, y2, z2)
t ∈ R6 e λ ∈ Rm+p).
Seja x∗ um minimizador local de (P), e suponhamos que x∗ seja regular.
Logo (pelo teorema 12.2 da p. 89 do livro da Ana), existe λ∗ ∈ Rm+p
tal que ∇xL(x∗, λ∗) = ∇h(x∗) +
m+p∑
i=1
λ∗i∇f.gi(x∗) = 0, sendo que:
∇h(x) = ( ∂h
∂x1
,
∂h
∂y1
,
∂h
∂z1
,
∂h
∂x2
,
∂h
∂y2
,
∂h
∂z2
)t
= (x1 − x2, y1 − y2, z1 − z2, x2 − x1, y2 − y1, z2 − z1)t
e
∇f.gi(x) =
{ ∇fi(x) se 1 ≤ i ≤ m
∇gi−m(x) se m+ 1 ≤ i ≤ m+ p
Portanto, para achar os candidatos a minimizadores locais de (P), po-
demos resolver o sistema não linear dado pelas equações KKT:
193
∇xL(x, λ) = ∇h(x) +
m+p∑
i=1
λi∇f.gi(x) = 0
f.g(x) = 0
12.2 Sejam f : Rn → R, g : Rn → Rm, f , g ∈ C2(Rn). Sejax˜ ∈ Rn tal
que g(x˜) = 0, ∇f(x˜) = J tg(x˜)λ e ∇2f(x˜) > 0. Isso implica que x˜ é
minimizador local de f sujeita a g(x) = 0 ? Prove ou dê um contra-
exemplo.
parcialmente resolvido (faltou o contraexemplo)
Temos que:
∇f(x˜) = J tg(x˜)λ
∇f(x˜) = [ ∇g1(x˜) . . . ∇gm(x˜) ]
 λ1..
.
λm

∇f(x˜) =
m∑
j=1
λj∇gj(x˜)
∇f(x˜)−
m∑
j=1
λj∇gj(x˜) = 0
Portanto, pelo teorema 12.2 (p.89 do livro da Ana), x˜ satisfaria as
condições necessárias de primeira ordem se fosse regular (mas isso não
é aﬁrmado pelo enunciado do exercício). Logo, isso não implica que x˜
é minimizador local de f sujeita a g(x) = 0.
Mesmo supondo que x˜ seja regular, consideremos a função lagrange-
ana L(x, λ) = f(x) + λtg(x). Temos que ∇2xL(x, λ) = ∇2f(x) +
m∑
j=1
λj∇2gj(x) e o plano tangente T a S = {x ∈ Rn | h(x) = 0} é
tal que T = {y ∈ Rn | Jg(x˜)y = 0} (teorema 12.1 da p. 89 do li-
vro da Ana). Apesar de sabemos que ∇2f(x˜) > 0, isso não implica
que yt∇2xL(x˜, λ)y = yt∇2f(x˜)y + yt[
m∑
j=1
λj∇2gj(x˜)]y > 0 para todo
y ∈ T \ {0} (pois não sabemos se
m∑
j=1
λj∇2gj(x˜) ≥ 0 em T \ {0}). Por-
tanto, as condições suﬁcientes de segunda ordem (teorema 12.4 da p.92
194
do livro da Ana) não são necessariamente satisfeitas. Logo, mesmo que
x˜ seja regular, isso não implica que x˜ é minimizador local de f sujeita
a g(x) = 0.
12.3 Desejamos minimizar f sujeita a hi(x) = 0, i = 1, . . . ,m. Suponha que
x˜ é uma solução desse problema e que x˜ é regular. Suponha também
que ∇f(x˜) = 0. Calcule os multiplicadores de Lagrange. Interprete
geometricamente.
Como x˜ é solução regular do problema, pelo teorema 12.2 (p. 89 do
livro da Ana) temos que existe λ˜ ∈ Rm tal que:
m∑
i=1
λ˜i∇hi(x˜) = ∇f(x˜)
= 0
Como x˜ é regular, pela deﬁnição 12.2 (p. 88 do livro da Ana) temos que
o conjunto {∇h1(x˜), . . . ,∇hm(x˜)} é linearmente independente. Pela
deﬁnição de independência linear e pela equação acima, segue que λ˜ =
(0, . . . , 0)t.
Geometricamente (pela regularidade de x˜), dado um arco factível dife-
renciável que passa por x˜, então o vetor tangente ao arco é ortogonal
a cada gradiente das restrições avaliadas em x˜ (∇hi(x˜)). Além disso,
como ∇f(x˜) = 0, não existem direções de descida para f (mesmo con-
siderando o problema irrestrito) em x˜.
12.4 Encontre todos os pontos estacionários da função
f(x) = −x21 − 4x22 − 16x23
sujeita à restrição c(x) = 0, onde c(x) é dada por:
O gradiente de f é dado por:
∇f(x) = ( ∂f
∂x1
,
∂f
∂x2
,
∂f
∂x3
)t
= (−2x1,−8x2,−32x3)t
195
Além disso, a hessiana de f é dada por:
∇2f(x) =

∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x3
∂2f
∂x1∂x2
∂2f
∂x22
∂2f
∂x2∂x3
∂2f
∂x3∂x1
∂2f
∂x3∂x2
∂2f
∂x23

=
 −2 0 00 −8 0
0 0 −32

Como todos os autovalores de ∇2f(x) são negativos, a matriz é deﬁnida
negativa.
(a) c(x) = x1 − 1
O gradiente de c é dado por:
∇c(x) = ( ∂c
∂x1
,
∂c
∂x2
,
∂c
∂x3
)t
= (1, 0, 0)t
Além disso, a hessiana de c é dada por:
∇2c(x) =

∂2c
∂x21
∂2c
∂x1∂x2
∂2c
∂x1∂x3
∂2c
∂x1∂x2
∂2c
∂x22
∂2c
∂x2∂x3
∂2c
∂x3∂x1
∂2c
∂x3∂x2
∂2c
∂x23

=
 0 0 00 0 0
0 0 0

Logo, os pontos estacionários são dados pelo sistema:{
∇f(x) = λ∇c(x)
c(x) = 0
⇒
{
(−2x1,−8x2,−32x3)t = λ(1, 0, 0)t
x1 − 1 = 0
⇒
196

x1 = 1
λ = −2x1 = −2
x2 =
0
−8 = 0
x3 =
0
−32 = 0
Portanto, o único ponto estacionário é x∗ = (1, 0, 0)t.
(b) c(x) = x1x2 − 1
O gradiente de c é dado por:
∇c(x) = ( ∂c
∂x1
,
∂c
∂x2
,
∂c
∂x3
)t
= (x2, x1, 0)
t
Além disso, a hessiana de c é dada por:
∇2c(x) =

∂2c
∂x21
∂2c
∂x1∂x2
∂2c
∂x1∂x3
∂2c
∂x1∂x2
∂2c
∂x22
∂2c
∂x2∂x3
∂2c
∂x3∂x1
∂2c
∂x3∂x2
∂2c
∂x23

=
 0 1 01 0 0
0 0 0

Logo, os pontos estacionários são dados pelo sistema:{
∇f(x) = λ∇c(x)
c(x) = 0
⇒
{
(−2x1,−8x2,−32x3)t = λ(x2, x1, 0)t
x1x2 − 1 = 0
⇒

x3 =
0
−32 = 0
x2 =
1
x1
−2x1 = λx2 = λx1
λx1 = −8x2 = − 8x1
⇒

x3 =
0
−32 = 0
x2 =
1
x1
λ = −2x21
λ = − 8
x21
⇒

x3 = 0
x2 =
1
x1
λ = −2x21
λ = − 8
x21
−2x21 = − 8x21
⇒
197

x3 = 0
x2 =
1
x1
λ = −2x21
λ = − 8
x21
⇒ λ = −4
x41 = 4⇒ x1 = ±
√
2
Portanto, os pontos estacionários são x∗1 = (
√
2,
√
2
2
, 0)t e x∗2 =
(−√2,−
√
2
2
, 0)t.
(c) c(x) = x1x2x3 − 1
O gradiente de c é dado por:
∇c(x) = ( ∂c
∂x1
,
∂c
∂x2
,
∂c
∂x3
)t
= (x2x3, x1x3, x1x2)
t
Além disso, a hessiana de c é dada por:
∇2c(x) =

∂2c
∂x21
∂2c
∂x1∂x2
∂2c
∂x1∂x3
∂2c
∂x1∂x2
∂2c
∂x22
∂2c
∂x2∂x3
∂2c
∂x3∂x1
∂2c
∂x3∂x2
∂2c
∂x23

=
 0 x3 x2x3 0 x1
x2 x1 0

Logo, os pontos estacionários são dados pelo sistema:{
∇f(x) = λ∇c(x)
c(x) = 0
⇒
{
(−2x1,−8x2,−32x3)t = λ(x2x3, x1x3, x1x2)t
x1x2x3 − 1 = 0
⇒
x1 =
1
x2x3
λx2x3 = −2x1 = − 2x2x3
λx3 = −8x2x1 = −8x22x3
λx2 = −32x3x1 = −32x2x23
⇒

x1 =
1
x2x3
λ = − 2
x22x
2
3
λ = −8x22
λ = −32x3
x1
= −32x23
⇒
198

x1 =
1
x2x3
λ = −8x22
−8x22 = −32x23
−8x22 = − 2x22x23
⇒

x1 =
1
x2x3
λ = −8x22
x2 = ±2x3
x42x
2
3 =
1
4
⇒

x1 =
1
x2x3
λ = −8x22
x2 = ±2x3
x23 =
1
4x42
= 1
16x43
⇒

x1 =
1
x2x3
⇒ sgn(x2) sgn(x3) 3
√
2
λ = −8x22 ⇒ −32 3
√
1
16
x2 = ±2x3 ⇒ ±2 3
√
1
4
x63 =
1
16
⇒ x3 = ± 3
√
1
4
Portanto, os pontos estacionários são:
x∗1 = (
3
√
2, 2
3
√
1
4
,
3
√
1
4
)t
x∗2 = (
3
√
2,−2 3
√
1
4
,− 3
√
1
4
)t
x∗3 = (− 3
√
2,−2 3
√
1
4
,
3
√
1
4
)t
x∗4 = (− 3
√
2, 2
3
√
1
4
,− 3
√
1
4
)t
12.5 Seja x˜ um ponto regular, minimizador de f sujeita a h(x) = 0, onde
f : Rn → R, h : Rn → Rm, f , h ∈ C2, com multiplicadores de
Lagrange associados λ ∈ Rm. Denotemos por H a matriz hessiana
da lagrangeana em (x, λ), H = ∇2f(x˜) + ∑mi=1 λ˜i∇2hi(x˜), e por A o
jacobiano de h em x˜, A = Jh(x˜). Seja P a matriz de projeção sobre
o núcleo de A. Prove que a matriz deﬁnida por B = P tHP + AtA é
semideﬁnida positiva.
Supondo m < n, temos que A = Jh(x˜) =
 ∇
th1(x˜)
.
.
.
∇thm(x˜)
 ∈ Rm×n é tal
que posto(A) = m, pois as linhas de A são linearmente independentes
(pois x˜ é regular).
Para d ∈ Rn, temos que:
199
dtAtAd = (Ad)tAd
= ‖Ad‖22
≥ 0
Logo, AtA é semideﬁnida positiva.
Pelo teorema 12.1 (p.89 do livro da Ana), como x˜ é um ponto regular
de S = {x ∈ Rn | h(x) = 0}, então o plano tangente T a S veriﬁca
T = {y ∈ Rn | Jh(x˜)y = Ay = 0} = Nu(A)
Como x˜ é um ponto regular, minimizador de f sujeita a h(x) = 0, pelas
condições de segunda ordem (teorema 12.3 da p.90 do livro da Ana)
temos que ytHy ≥ 0 para todo y ∈ T = Nu(A) .
Para d ∈ Rn, vale:
dt(P tHP )d = dt(P )tHPd
= (Pd)tH(Pd)
≥ 0
(pois Pd ∈ T = Nu(A), já que P é a matriz de projeção sobre o núcleo de A)
Logo, P tHP é semideﬁnida positiva.
Portanto, para d ∈ Rn, temos:
dtBd = dt(P tHP + AtA)d
= dt(P tHP )d︸ ︷︷ ︸
≥0
+ dt(AtA)d︸ ︷︷ ︸
≥0
≥ 0
Logo, B é semideﬁnida positiva (já que é soma de matrizes semideﬁni-
das positivas).
200
1.13 Capítulo 13 - Minimização com restrições não-lineares
de igualdade e desigualdade
13.1 Em R2 considere as seguintes restrições:
x1 ≥ 0
x2 ≥ 0
x2 − (x1 − 1)2 ≤ 0
Prove que (1, 0)t é factível mas não é regular.
Tais restrições equivalem a :
g1(x) = −x1 ≤ 0
g2(x) = −x2 ≤ 0
g3(x) = x2 − (x1 − 1)2 ≤ 0
Os gradientes de cada função são:
∇g1(x) = (−1, 0)t
∇g2(x) = (0,−1)t
∇g3(x) = (−2x1 + 2, 1)t
Temos que (1, 0)t é factível apenas se satisﬁzer osistema de inequações
g1(1, 0) ≤ 0
g2(1, 0) ≤ 0
g3(1, 0) ≤ 0
⇒

−1 ≤ 0
−0 = 0 ≤ 0
0− (1− 1)2 = 0 ≤ 0
Logo, (1, 0)t é factível. Seja K(1, 0) = {j ∈ {1, 2, 3} | gj(1, 0) = 0} =
{2, 3}. Pela deﬁnição 13.1 (p.96 do livro da Ana), (1, 0)t será regular
apenas se o conjunto {∇gj(1, 0) | j ∈ K(1, 0)} = {∇g2(1, 0),∇g3(1, 0)} =
{(0,−1)t, (0, 1)t} for linearmente independente.
201
Suponhamos α1, α2 ∈ R tal que α1(0,−1)t + α2(0, 1)t = (0, 0)t. Segue
que:
α1(0,−1)t + α2(0, 1)t = (0, 0)t
(0,−α1 + α2) = (0, 0)t
α1 = α2
Portanto, como não temos necessariamente que α1 = α2 = 0, segue
que {(0,−1)t, (0, 1)t} não é linearmente indepedente. Logo, (1, 0)t não
é regular.
13.2 Considere o problema
minimizar (x+ 1)2 + (y − 1)2
s.a. 2y − 1 = 0
(1− x)(4− x2 − y2) ≤ 0
100− 2x2 − y2 ≥ 0
Resolva o problema graﬁcamente e encontre os valores exatos dos mul-
tiplicadores de Lagrange usando as condições Kuhn-Tucker.
Tal problema é equivalente a
minimizar f(x, y) = (x+ 1)2 + (y − 1)2 = ‖(x, y)− (−1, 1)‖22
s.a. h1(x, y) = 2y − 1 = 0
g1(x, y) = (1− x)(4− x2 − y2) ≤ 0
g2(x, y) = 2x
2 + y2 − 100 ≤ 0
Os gradientes de cada função são dados por:
∇f(x, y) = (2x+ 2, 2y − 2)t
∇h1(x, y) = (0, 2)t
∇g1(x, y) = (x(3x− 2) + y2 − 4, 2xy − 2y)t
∇g2(x, y) = (4x, 2y)t
202
O conjunto viável é dado pela ﬁgura a seguir:
Figura 12: Conjunto viável gerado pelo WolframAlpha .
A superfície h1(x, y) = 0 é deﬁnida pela reta y =
1
2
.
A região g2(x, y) ≤ 0 é tal que:
2x2 + y2 − 100 ≤ 0
2x2 + y2 ≤ 100
x2
50
+
y2
100
≤ 1
y2
102
+
x2
(5
√
2)2
≤ 1
Portanto, g2(x, y) ≤ 0 é o interior da elipse de centro (0, 0)t, eixo maior
igual a 2a = 2(10) = 20 paralelo ao eixo y, e eixo menor 2b = 2(5
√
2) =
10
√
2 paralelo ao eixo x.
Seja (x∗, y∗)t a solução do problema. Como h1(x∗, y∗) = 0, temos
y∗ = 1
2
. Como a função objetivo f(x, y) = ‖(x, y)t − (−1, 1)t‖22 é o
quadrado da distância ao ponto (−1, 1)t, então (x∗, y∗) é o ponto viável
da forma (x, 1
2
) que está mais próximo de (−1, 1)t.
Analisando a restrição dada por g2(x, y) ≤ 0 nos pontos (x, 12), temos:
203
2x2 + y2 − 100 ≤ 0
2x2 +
1
4
− 100 ≤ 0
x2 ≤ 399
8
−7, 06 ≈ −
√
798
4
≤ x ≤
√
798
4
≈ 7, 06
Analisando a restrição dada por g1(x, y) ≤ 0 nos pontos (x, 12), temos:
(1− x)(4− x2 − y2) ≤ 0
(1− x)(4− x2 − 1
4
) ≤ 0
(1− x)(15
4
− x2) ≤ 0
Temos dois casos a analisar:
caso 1: 1− x ≤ 0⇒ x ≥ 1
Para essa região, temos que o ponto viável mais próximo de (−1, 1)t será
p1 = (1,
1
2
)t (pois qualquer outro ponto viável terá x > 1, e portanto
será mais distante de (−1, 1)t). Temos que a distância de p1 a (−1, 1)t
é
√
(−1− 1)2 + (1− 1
2
)2 = 17
2
≈ 2, 06.
caso 2: 1− x > 0⇒ x < 1
Para essa região, devido à restrição g1(x, y) ≤ 0 ⇐⇒ (1−x)(154 −x2) ≤
0, temos que os pontos viáveis são tais que:
15
4
− x2 ≤ 0
x2 ≥ 15
4
x ≤ −
√
15
2
≈ −1, 93 (pois x < 1)
204
Logo, nesse caso temos que o ponto viável mais próximo de (−1, 1)t
será p2 = (−
√
15
2
, 1
2
)t (pois qualquer outro ponto viável terá x < −
√
15
2
,
e portanto será mais distante de (−1, 1)t). Temos que a distância de
p2 a (−1, 1)t é
√
(−1 +
√
15
2
)2 + (1− 1
2
)2 =
√
5−√15 ≈ 1, 06.
Portanto, dos casos 1 e 2 temos que (x∗, y∗)t = p2 = (−
√
15
2
, 1
2
)t (pois
p2 tem menor valor da função objetivo que p1).
Calculando os valores de cada função de restrição em (x∗, y∗)t, obtemos:
h1(x
∗, y∗) = 0
g1(x
∗, y∗) = 0
g2(x
∗, y∗) = −369
4
< 0
Seja K(x∗, y∗) = {j ∈ {1, 2} | gj(x∗, y∗) = 0} = {1}. Pelas condições
necessárias de primeira ordem (teorema 13.1 da p.97 do livro da Ana),
temos que existem λ ∈ R e µ ∈ R+ tais que:
∇f(x∗, y∗) + λ∇h1(x∗, y∗) + µ∇g1(x∗, y∗) = 0
(2−
√
15,−1)t + λ(0, 2)t + µ(15
2
+
√
15,−1−
√
15
2
)t = 0
{
2−√15 + µ(15
2
+
√
15) = 0
−1 + 2λ+ µ(−1−
√
15
2
) = 0
⇒
{
µ = 38
11
√
15
− 8
11
≈ 0.16 ≥ 0
λ = 1− 1√
15
⇒{
µ = 2(19
√
15−60)
165
λ = 15−
√
15
15
13.3 Considere o problema
maximizar x32
s.a. (x1 − x2)3 ≥ 0
(x1 + x2 − 2)3 ≤ 0
205
Resolva e analise as condições de otimalidade.
Tal problema é equivalente a
(P): minimizar −x32 = (−x2)3
s.a. −(x1 − x2)3 = (−[x1 − x2])3 ≤ 0
(x1 + x2 − 2)3 ≤ 0
Além disso, como f(x) = x3 não altera o sinal de x e é uma função não
decrescente, então o problema também é equivalente a:
(Q): minimizar f(x1, x2) = −x2
s.a. g1(x, y) = −x1 + x2 ≤ 0
g2(x, y) = x1 + x2 ≤ 2
Nesse caso, temos que A =
[ −1 1
1 1
]
∈ R2×2 e b =
[
0
2
]
∈ R2.
O conjunto viável é dado pela ﬁgura a seguir:
Figura 13: Conjunto viável gerado pelo WolframAlpha .
Logo, para minimizar f(x1, x2) = −x2, basta escolher o maior valor
viável de x2, que é x
∗
2 = 1. Tal valor apenas corresponde a um único
valor viável de x1, que é x
∗
1 = 1. Logo, x
∗ = (1, 1)t é a solução do
problema.
206
Temos que o gradiente de f é dado por:
∇f(x1, x2) = ( ∂f
∂x1
,
∂f
∂x2
)t
= (0,−1)t
Seja I = {j ∈ {1, 2} | atjx∗ = bj} = {1, 2}. Temos então que AI =
A =
[ −1 1
1 1
]
. Pelas condições de otimalidade de primeira ordem
(teorema 9.1 da p.69 do livro da Ana), existe λ ∈ R2 tal que:
∇f(x∗) = AtIλ
(0,−1)t =
[ −1 1
1 1
]
(λ1, λ2)
t
(0,−1)t = (−λ1 + λ2, λ1 + λ2)t
(λ1, λ2)
t = (−1
2
,−1
2
)
Logo, x∗ satisfaz a condição necessária de primeira ordem.
Ainda, como a hessiana de f é tal que:
∇2f(x) =
[
∂2f
∂x21
∂2f
∂x1∂x2
∂2f
∂x1∂x2
∂2f
∂x22
]
=
[
0 0
0 0
]
Temos que, para todo y ∈ Nu(AI), temos yt∇2f(x∗)y = 0 ≥ 0, mas
não temos yt∇2f(x∗)y > 0. Portanto, x∗ satisfaz a condição necessária
de segunda ordem (teorema 9.2 da p. 73 do livro da Ana), mas não
satisfaz a condição suﬁciente de segunda ordem (teorema 9.3 da p. 73
do livro da Ana)
207
13.4 Considere o problema
minimizar f(x)
s.a. u(x) ≤ 0
v(x) ≤ 0
Suponha que x˜ é uma solução regular do problema acima. Deﬁna pro-
blemas onde isso acontece e:
não resolvido
(a) u(x˜) = v(x˜) = 0
(b) u(x˜) < 0, v(x˜) = 0
(c) u(x˜) < 0, v(x˜) < 0
(d) u(x˜) = v(x˜) = 0 e um dos multiplicadores é zero.
13.5 Encontre todas as soluções globais do problema
maximizar x1
s.a. x2 − sen(x1) = 0
x22 − 1 = 0
−10 ≤ x1 ≤ 10
Tal problema é equivalente a
minimizar f(x1, x2) = −x1
s.a. h1(x1, x2) = x2 − sen(x1) = 0
h2(x1, x2) = x
2
2 − 1 = 0
g1(x1, x2) = x1 − 10 ≤ 0
g2(x1, x2) = −x1 − 10 ≤ 0
Seja (x1, x2) um ponto viável. Pela restrição h2(x1, x2) = 0, temos
x2 = ±1.
208
Para x2 = 1, como h1(x1, x2) = 0 ⇐⇒ sen(x1) = x2 = 1, segue
que x1 =
pi
2
+ 2kpi (para k ∈ Z). Para satisfazer g1(x1, x2) = 0 e
g2(x1, x2) = 0, é necessário que −10 ≤ pi2 + 2kpi ≤ 10, o que ocorre
apenas para k ∈ {−1, 0, 1}. Portanto, para x2 = 1, o ponto viável que
minimiza f é (x1, x2)
t = (pi
2
+ 2pi, 1)t = (5pi
2
, 1)t.
Para x2 = −1, como h1(x1, x2) = 0 ⇐⇒ sen(x1) = x2 = −1, segue
que x1 = −pi2 + 2kpi (para k ∈ Z). Para satisfazer g1(x1, x2) = 0 e
g2(x1, x2) = 0, é necessário que −10 ≤ −pi2 + 2kpi ≤ 10, o que ocorre
apenas para k ∈ {−1, 0, 1}. Portanto, para x2 = −1, o ponto viável
que minimiza f é (x1, x2)
t = (−pi
2
+ 2pi, 1)t = (3pi
2
,−1)t.
Como f(5pi
2
, 1) = −5pi
2
< −3pi
2
= f(3pi
2
,−1), segue que (x∗1, x∗2)t = (5pi2 , 1)t
é a solução global do problema.
13.6 Considere o problema
minimizar x1
s.a. x2 ≥ 0
x2 ≤ x31
Qual é a solução? Por que não se veriﬁcam as condições Kuhn-Tucker?
Tal problema é equivalente a
minimizar f(x1, x2) = x1
s.a. g1(x1, x2) = −x2 ≤ 0
g2(x1, x2) = x2 − x31 ≤ 0
O conjunto viável é dado pela ﬁgura a seguir:
209
Figura 14: Conjunto viável gerado pelo WolframAlpha .
Seja (x1, x2) um pontoviável. Pela restrição g1(x1, x2) ≤ 0, temos
x2 ≥ 0. Pela restrição g2(x1, x2) ≤ 0, temos x31 ≥ x2. Como x2 ≥ 0,
temos x31 ≥ 0 ⇒ x1 ≥ 0. Como o objetivo é minimizar x1, segue
imediatamente que a solução do problema é x∗ = (x∗1, x
∗
2)
t = (0, 0)t.
Temos que os gradientes das funções são dados por:
∇f(x1, x2) = (1, 0)t
∇g1(x1, x2) = (0,−1)t
∇g2(x1, x2) = (−3x21, 1)t
Seja I = {j ∈ {1, 2} | gj(x∗) = 0} = {1, 2}. Pelas condições de
otimalidade de primeira ordem (teorema 13.1 da p.97 do livro da Ana),
a condição KKT de primeira ordem é que existe µ ∈ R2+ tal que:
∇f(x∗) +
∑
j∈I
µj∇gj(x∗) = 0
(1, 0)t + µ1(0,−1)t + µ2(0, 1)t = 0
(1,−µ1 + µ2)t = 0 (não existe solução)
Logo, a condição KKT de primeira ordem não é satisfeita. Isso ocorre
pois o conjunto de gradientes das restrições ativas em x∗, dado por
210
{∇g1(x∗),∇g2(x∗)} = {(0,−1), (0, 1)}, não é linearmente independente
(pois (0,−1) = −1(0, 1)). Logo, x∗ não é regular, e portanto as condi-
ções KKT não precisam necessariamente ser válidas.
13.7 Resolva os problemas abaixo usando as condições Kuhn-Tucker:
(a)
minimizar
∑n
i=1
1
xi
s.a.
∑n
i=1 x
2
i = n
xi ≥ 0, i = 1, . . . , n
Tal problema é equivalente a
minimizar f(x) =
∑n
i=1
1
xi
s.a. h(x) = −n+∑ni=1 x2i = 0
g1(x) = −x1 ≤ 0
.
.
.
gn(x) = −xn ≤ 0
Temos que os gradientes das funções são dados por:
∇f(x) = (− 1
x21
, . . . ,− 1
x2n
)t
∇h(x) = (2x1, . . . , 2xn)t
∇gi(x) = (0, . . . , 0, −1︸︷︷︸
posição i
, 0, . . . , 0)t, i = 1, . . . , n
Suponhamos que x∗ seja uma solução regular do problema. Pelas
condições KKT gerais (teorema 2.4.1 da p.22 do livro do Martí-
nez), existem λ∗ ∈ R e µ∗ ∈ Rn+ tais que:
∇f(x∗) + λ∗∇h(x∗) +
n∑
i=1
µ∗i∇gi(x∗) = 0
h(x∗) = 0
gi(x
∗) ≤ 0, i = 1, . . . , n
µ∗i gi(x
∗) = 0, i = 1, . . . , n
⇒
211

(− 1
(x∗1)2
, . . . ,− 1
(x∗n)2
)t + 2λ∗(x∗1, . . . , x
∗
n)
t − (µ∗1, . . . , µ∗n) = 0∑n
i=1(x
∗
i )
2 = n
x∗i ≥ 0, i = 1, . . . , n
µ∗i (−x∗i ) = 0, i = 1, . . . , n
⇒

(− 1
(x∗1)2
+ 2λ∗x∗1 − µ∗1, . . . ,− 1(x∗n)2 + 2λ
∗x∗n − µ∗n)t = 0∑n
i=1(x
∗
i )
2 = n
x∗i ≥ 0, i = 1, . . . , n
µ∗ix
∗
i = 0, i = 1, . . . , n
⇒

− 1
(x∗i )2
+ 2λ∗x∗i − µ∗i = 0, i = 1, . . . , n∑n
i=1(x
∗
i )
2 = n
x∗i ≥ 0, i = 1, . . . , n
µ∗ix
∗
i = 0, i = 1, . . . , n
se µ∗=0
====⇒

x∗i =
3
√
1
2λ∗ , i = 1, . . . , n∑n
i=1(x
∗
i )
2 = n
x∗i ≥ 0, i = 1, . . . , n
⇒

x∗i =
3
√
1
2λ∗ , i = 1, . . . , n
n( 3
√
1
2λ∗ )
2 = n
x∗i ≥ 0, i = 1, . . . , n
⇒

x∗i =
3
√
1
2λ∗ = 1, i = 1, . . . , n
λ∗ = 1
2
x∗i ≥ 0, i = 1, . . . , n
Logo, como x∗ = (1, . . . , 1)t é regular (pois o conjunto das restri-
ções ativas em x∗ é {∇h(x∗)} = {(2, . . . , 2)t}, que é linearmente
independente), temos que x∗ satisfaz a condição de primeira or-
dem.
Além disso, a hessiana do lagrangeano em relação a x é tal que:
∇2xL(x∗, λ∗, µ∗) = ∇2f(x∗) + λ∗∇2h(x∗)
= diag(
2
(x∗1)3
, . . . ,
2
(x∗n)3
) +
1
2
diag(2, . . . , 2)
= diag(2, . . . , 2) + diag(1, . . . , 1)
= diag(3, . . . , 3)
> 0
Portanto, como ∇2xL(x∗, λ∗, µ∗) > 0, x∗ satisfaz as condições su-
ﬁciente de segunda ordem (e portanto é um minimizador local de
212
f).
(b)
maximizar
∏n
i=1 xi
s.a.
∑n
i=1 x
2
i = n
Tal problema é equivalente a
minimizar f(x) = −∏ni=1 xi
s.a. h(x) = −n+∑ni=1 x2i = 0
Temos que os gradientes das funções são dados por:
∇f(x) = (−x2 . . . xn, . . . ,
∂f
∂xi
=︷ ︸︸ ︷
−x1 . . . xi−1xi+1 . . . xn, . . . ,−x1 . . . xn−1)t
∇h(x) = (2x1, . . . , 2xn)t
Suponhamos que x∗ seja uma solução regular do problema. Pelas
condições KKT gerais (teorema 2.4.1 da p.22 do livro do Martí-
nez), existe λ∗ ∈ R tal que:{
∇f(x∗) + λ∗∇h(x∗) = 0
h(x∗) = 0
⇒{
(−x∗2 . . . x∗n, . . . ,−x∗1 . . . x∗i−1x∗i+1 . . . x∗n, . . . ,−x∗1 . . . x∗n−1)t + 2λ∗(x∗1, . . . , x∗n)t = 0∑n
i=1(x
∗
i )
2 = n
⇒{
−x∗1 . . . x∗i−1x∗i+1 . . . x∗n = −2λ∗x∗i , i = 1, . . . , n∑n
i=1(x
∗
i )
2 = n
⇒{
−x∗1 . . . x∗n = −2λ∗(x∗i )2, i = 1, . . . , n∑n
i=1(x
∗
i )
2 = n
⇒
−x∗1 . . . x∗n = −2λ∗(x∗i )2, i = 1, . . . , n
(x∗1)
2 = . . . = (x∗n)
2∑n
i=1(x
∗
i )
2 = n
⇒
213

∑n
i=1(x
∗
i )
2 = n⇒ (x∗i )2 = 1⇒ x∗i = ±1, i = 1, . . . , n
(x∗1)
2 = . . . = (x∗n)
2
−x∗1 . . . x∗n = −2λ∗(x∗i )2 ⇒ λ∗ = x
∗
1...x
∗
n
2
, i = 1, . . . , n
Como queremos minimizar f(x) = −∏ni=1 xi e x∗i = ±1 ∀i, en-
tão qualquer x∗ ∈ {+1,−1}n tal que ∏ni=1 x∗i = 1 é candidato a
mínimo local.
13.8 Considere o seguinte problema
minimizar −x1 + x2
s.a. x21 + x
2
2 − 2x1 = 0
(x1, x2) ∈ X
onde X é o conjunto formado pelas combinações convexas dos pontos
(−1, 0), (0, 1), (1, 0) e (0,−1). Encontre a solução ótima graﬁcamente e
veriﬁque se as condições Kuhn-Tucker são cumpridas na solução obtida.
Seja (x1, x2)
t ∈ X. Logo, existem x3, x4, x5, x6 ∈ R+ (com x3 + x4 +
x5 + x6 = 1) tais que:
(x1, x2)
t = x3(−1, 0)t + x4(0, 1)t + x5(1, 0)t + x6(0,−1)t
= (−x3 + x5, x4 − x6)t
Logo,
X = {(−x3 + x5, x4 − x6)t | x3 + x4 + x5 + x6 = 1; (x3, x4, x5, x6)t ∈ R4+}
= {(x1, x2)t ∈ R2 | x1 + x2 ≤ 1,−x1 − x2 ≤ 1,−x1 + x2 ≤ 1, x1 − x2 ≤ 1}
Portanto, o problema pode ser reformulado como:
214
(P) minimizar f(x) = −x1 + x2
s.a. h1(x) = x
2
1 + x
2
2 − 2x1 = (x1 − 1)2 + (x2 − 0)2 − 12 = 0
g1(x) = x1 + x2 − 1 ≤ 0
g2(x) = −x1 − x2 − 1 ≤ 0
g3(x) = −x1 + x2 − 1 ≤ 0
g4(x) = x1 − x2 − 1 ≤ 0
O conjunto viável é dado pela ﬁgura a seguir:
Figura 15: Conjunto viável gerado pelo WolframAlpha .
Graﬁcamente, temos então que o ponto que minimiza f(x) = −x1 + x2
é x∗ = (2−
√
2
2
,−
√
2
2
)t. Seja I = {j ∈ {1, 2, 3, 4} | gj(x∗) = 0} = {4}.
Temos que os gradientes das funções são dados por:
∇f(x) = (−1, 1)t
∇h1(x) = (2x1 − 2, 2x2)t
∇g1(x) = (1, 1)t
∇g2(x) = (−1,−1)t
∇g3(x) = (−1, 1)t
∇g4(x) = (1,−1)t
215
Consideremos o conjunto dos gradientes das restrições ativas em x∗,
dado por {∇h1(x∗),∇g4(x∗)} = {(−
√
2,−√2)t, (1,−1)t}. Suponha-
mos que existam a, b ∈ R tais que a∇h1(x∗) + b∇g4(x∗) = 0. Temos
que:
a∇h1(x∗) + b∇g4(x∗) = 0
a(−
√
2,−
√
2)t + b(1,−1)t = 0
(−a
√
2 + b,−a
√
2− b)t = 0
a = b = 0
Logo, como {∇h1(x∗),∇g4(x∗)} é um conjunto linearmente indepen-
dente, segue que x∗ é regular. Portanto, pelos teoremas 13.1 (p. 97 do
livro da Ana) e 13.2 (p. 99 do livro da Ana), x∗ satisfaz as condições
KKT necessárias de primeira e segunda ordem.
Logo, existem λ∗ ∈ R e µ∗ ∈ R+ tais que:
∇f(x∗) + λ∗∇h1(x∗) + µ∗∇g4(x∗) = 0
(−1, 1)t + λ∗(−
√
2,−
√
2)t + µ∗(1,−1)t = 0
(−1− λ∗
√
2 + µ∗, 1− λ∗
√
2− µ∗)t = 0
(λ∗, µ∗)t = (0, 1)t
Além disso, a hessiana do lagrangeano em relação a x é tal que:
∇2xL(x∗, λ∗, µ∗) = ∇2f(x∗) + λ∗∇2h1(x∗) + µ∗∇2g4(x∗)
=
[
0 0
0 0
]
+ 0∇2h1(x∗) + 1
[
0 0
0 0
]
=
[
0 0
0 0
]
≥ 0
216
Seguindo a deﬁnição do teorema 13.3 (p. 100 do livro da Ana), seja
T ′ = {y | ∇th1(x∗)y = 0 e ∇tg4(x∗)y = 0}. Se y = (y1, y2) ∈ T ′, temos
que:{
∇th1(x∗)y = 0
∇tg4(x∗)y = 0
⇒
{
(−√2,−√2)t(y1, y2) = 0
(1,−1)t(y1, y2) = 0
⇒
{
−y1
√
2− y2
√
2 = 0
y1 − y2 = 0
⇒{
y1 = 0
y2 = 0
Portanto, como não vale que ∇2xL(x∗, λ∗, µ∗) é deﬁnida positiva em
T ′ = {(0, 0)t}, x∗ não satisfaz as condições suﬁcientes de segunda ordem
(embora seja a solução ótima do problema).
13.9 Os seguintes desenhos mostram duas restrições g(x) ≤ 0, h(x) ≤ 0 e o
gradiente de uma função f num ponto factível x. Em cada caso, diga
se x é um maximizador, minimizador ou �nada�.
Considerando o teorema 13.1 (p. 97 do livro da Ana) e a ﬁgura 13.3
(p. 99 do livro da Ana, reproduzida a seguir)
Figura 16: Figura 13.3 dolivro da Ana.
217
, temos que x será minimizador local de f se∇f(x) for uma combinação
linear não positiva dos gradientes das restrições ativas em x (isto é, se
∇f(x) = W tK(−µ∗) com µ∗i ≥ 0 , sendo que as colunas de W tK são
os gradientes das restrições ativas em x ). Graﬁcamente, isso signiﬁca
que ∇f(x) precisa estar �entre� −∇g(x) e −∇h(x) (supondo que g e h
sejam as funções das restrições ativas em x).
Analogamente, temos que x será maximizador local de f se ∇f(x) for
uma combinação linear não negativa dos gradientes das restrições ativas
em x (isto é, se ∇f(x) = W tKµ∗ com µ∗i ≥ 0 , sendo que as colunas de
W tK são os gradientes das restrições ativas em x ). Graﬁcamente, isso
signiﬁca que ∇f(x) precisa estar �entre� ∇g(x) e ∇h(x) (supondo que
g e h sejam as funções das restrições ativas em x).
Sabemos também ∇g(x) é perpendicular à curva de nível g(x) = 0, e
que ∇g(x) aponta para a região oposta à região viável (indicada pela
�franja� na curva de nível g(x) = 0). Usando isso, temos:
(a)
Como ∇f(x) não está em nenhum dois casos descritos anterior-
mente, é classiﬁcado como �nada�.
(b)
Nesse caso, temos que ∇f(x) está �entre� −∇g(x) e −∇h(x) .
Logo, x é minimizador local de f .
(c)
Como ∇f(x) não está em nenhum dois casos descritos anterior-
mente, é classiﬁcado como �nada�.
218
(d)
não resolvido, pois uma das restrições não possui a �franja� que
mostra qual é a região viável.
(e)
Como ∇f(x) não está em nenhum dois casos descritos anterior-
mente, é classiﬁcado como �nada�.
(f)
Como ∇f(x) não está em nenhum dois casos descritos anterior-
mente, é classiﬁcado como �nada�.
(g)
Nesse caso, temos que ∇f(x) está �entre� ∇g(x) e ∇h(x) . Logo,
x é maximizador local de f .
(h)
Nesse caso, temos que ∇f(x) está �entre� −∇g(x) e −∇h(x) .
219
Logo, x é minimizador local de f .
13.10 Sejam f : Rn → R , g : Rn → Rm , r : Rp → R , h : Rp → Rq .
Considere os problemas:
(P) minimizar f(x) (Q) minimizar r(x)
s.a. g(x) ≤ 0 s.a. h(x) = 0
Mostre como transformar (P) em (Q) e vice-versa.
parcialmente resolvido (faltou transformar (P) em (Q), mas talvez
isso não seja possível)
⇐ Consideremos o problema (Q). Como h(x) = 0 ⇐⇒ h(x) ≥
0 e h(x) ≤ 0 ⇐⇒ −h(x) ≤ 0 e h(x) ≤ 0, segue imediatamente que
(Q) é equivalente a :
(Q') minimizar r(x)
s.a. −h(x) ≤ 0
h(x) ≤ 0
Deﬁnindo g := −h.h (i.e., g é a concatenação de −h(x) e h(x), de
acordo com a deﬁnição feita na resolução do exercício 12.1), temos que
(Q) e (Q') também são equivalentes a:
(Q�) minimizar r(x)
s.a. g(x) ≤ 0
Como (Q�) está no mesmo formato de (P), então transformamos (Q)
em (P).
⇒ Consideremos o problema (P). Como g : Rn → Rm, deﬁnamos as
variáveis (de folga) não negativas s1, . . . , sm. Temos então que (P) é
equivalente a:
220
(P') minimizar f(x)
s.a. g1(x) + s1 = 0
.
.
.
gm(x) + sm = 0
s1 ≥ 0
.
.
.
sm ≥ 0
Argumentamos que não é possível transformar (P) (ou (P')) para o
formato de (Q), pois (Q) é a forma geral do problema de programação
não-linear, enquanto (P) é um caso particular.
13.11 Encontre a solução (x˜, y˜) do problema abaixo em função do parâmetro
a ≥ 0:
minimizar −x+ y
s.a. y ≥ x2
0 ≤ x ≤ a
0 ≤ y ≤ 1
O conjunto viável (para 0 ≤ a < 1) é dado pela ﬁgura a seguir:
Figura 17: Conjunto viável gerado pelo WolframAlpha .
221
O conjunto viável (para a ≥ 1) é dado pela ﬁgura a seguir:
Figura 18: Conjunto viável gerado pelo WolframAlpha .
Seja (x, y)t um ponto viável. Analisemos os seguintes casos:
Caso 1: 0 ≤ a ≤ 1
Como 0 ≤ a ≤ 1 e 0 ≤ x ≤ a, temos 0 ≤ x2 ≤ 1. Logo, y = x2 é
viável. Para qualquer escolha de x ∈ [0, a], como o objetivo é minimizar
f(x, y) = −x+y, segue que a melhor escolha de y será y = x2. Portanto,
a função objetivo é da forma f(x) = −x+ x2. A derivada de f é então
f ′(x) = 2x− 1. Analisemos dois subcasos:
Caso 1.1: 0 ≤ a < 1
2
Temos que 0 ≤ x ≤ a < 1
2
. Como f ′(x) = 2x − 1 < 0 para x ∈ [0, 1
2
],
segue que o mínimo de f em [0, a] ocorre em x = a. Portanto, a solução
do problema é (x˜, y˜) = (a, a2).
Caso 1.2:
1
2
≤ a ≤ 1
Temos que 0 ≤ x ≤ a ≤ 1. Como f ′(1
2
) = 0 e f ′(1
2
) = 2 > 0, segue
que o mínimo de f em [0, a] ocorre em x = 1
2
. Portanto, a solução do
problema é (x˜, y˜) = (1
2
, (1
2
)2) = (1
2
, 1
4
).
Caso 2: a > 1.
Nesse caso, temos que os pontos x tais que x > 1 não sáo viáveis, pois
x2 > 1 e portanto y > 1 (pois y ≥ x2 > 1) . Logo, os únicos pontos x
que correspondem a y viáveis são os tais que x ∈ [0, 1].
Assim como no caso 1, para qualquer escolha de x ∈ [0, 1], como o
objetivo é minimizar f(x, y) = −x + y, segue que a melhor escolha de
y será y = x2. Portanto, a função objetivo é da forma f(x) = −x+ x2.
222
Como f ′(1
2
) = 0 e f ′(1
2
) = 2 > 0, segue que o mínimo de f em [0, 1]
ocorre em x = 1
2
. Portanto, a solução do problema é (x˜, y˜) = (1
2
, (1
2
)2) =
(1
2
, 1
4
).
Em suma, temos que:
(x˜, y˜) =
{
(a, a2) se 0 ≤ a < 1
2
(1
2
, 1
4
) se 1
2
≤ a
13.12 Considere o conjunto S = {(x, y) ∈ R2|y ≥ sen(x), y ≤ x, x ≤ pi}.
Exiba uma função f tal que o minimizador dela no conjunto S não
satisfaça as condições Kuhn-Tucker. Justiﬁque.
Temos que o problema em questão pode ser modelado como:
minimizar f(x, y)
s.a. g1(x, y) = sen(x)− y ≤ 0
g2(x, y) = y − x ≤ 0
g3(x, y) = x− pi ≤ 0
O conjunto viável é dado pela ﬁgura a seguir:
Figura 19: Conjunto viável gerado pelo WolframAlpha .
Os gradientes das restrições são dados por:
223
∇g1(x, y) = (cos(x),−1)t
∇g2(x, y) = (−1, 1)t
∇g3(x, y) = (1, 0)t
Seja (x∗, y∗) o ponto procurado. Para que ele não necessariamente
satisfaça as condições KKT, é necessário que ele não seja regular, isto
é, que os gradientes das funções das restrições ativas em (x∗, y∗) não
sejam linearmente independentes. Para que isso ocorra, devem existir
pelo menos duas restrições ativas em (x∗, y∗), o que nos dá os seguintes
candidatos:
(x∗1, y
∗
1) = (0, 0) (g1(x
∗
1, y
∗
1) = g2(x
∗
1, y
∗
1) = 0)
(x∗2, y
∗
2) = (pi, 0) (g1(x
∗
2, y
∗
2) = g3(x
∗
2, y
∗
2) = 0)
(x∗3, y
∗
3) = (pi, pi) (g2(x
∗
3, y
∗
3) = g3(x
∗
3, y
∗
3) = 0)
Os conjuntos dos gradientes das funções das restrições ativas em cada
ponto são dados por:
{∇g1(x∗1, y∗1),∇g2(x∗1, y∗1)} = {(1,−1), (−1, 1)} (não L.I.)
{∇g1(x∗2, y∗2),∇g3(x∗2, y∗2)} = {(−1,−1), (1, 0)} (L.I.)
{∇g2(x∗3, y∗3),∇g3(x∗3, y∗3)} = {(−1, 1), (1, 0)} (L.I.)
Logo, deﬁnindo f(x, y) = x + y, temos que (x∗, y∗) = (x∗1, y
∗
1) = (0, 0)
é um ponto não regular que é o minimizador de f em S, pois x + y ≥
0 ∀(x, y) ∈ S e f(x∗, y∗) = 0.
Se (x∗, y∗) satisﬁzesse as condições KKT, pelo teorema 13.1 (p. 97 do
livro da Ana) existiria µ∗ ∈ R2+ tal que:
∇f(x∗, y∗) + µ∗1∇g1(x∗1, y∗1) + µ∗2∇g2(x∗1, y∗1) = 0
(1, 1)t + µ∗1(1,−1)t + µ∗2(−1, 1)t = 0
(1 + µ∗1 − µ∗2, 1− µ∗1 + µ∗2)t = 0
224
{
1 + µ∗1 − µ∗2 = 0
1− µ∗1 + µ∗2 = 0
Como o sistema anterior não tem solução (pois a matriz de coeﬁcientes
tem determinante igual a 0, e portanto não é invertível), segue que
(x∗, y∗) = (0, 0) é um minimizador de f em S que não satisfaz as
condições KKT.
13.13 Considere o problema
maximizar x2 + (y − 1)2
s.a. y ≤ 2
y ≥ cos(pix)
x+ 1 ≥ 0
x− 1 ≤ 0
Resolva o problema graﬁcamente e encontre os multiplicadores de La-
grange utilizando as condições Kuhn-Tucker.
Temos que o problema em questão é equivalente a:
minimizar f(x, y) = x2 + (y − 1)2
s.a. g1(x) = y − 2 ≤ 0
g2(x) = cos(pix)− y ≤ 0
g3(x) = −x− 1 ≤ 0
g4(x) = x− 1 ≤ 0
O conjunto viável é dado pela ﬁgura a seguir:
225
Figura 20: Conjunto viável gerado pelo WolframAlpha .
Os gradientes das funções são dados por:
∇f(x, y) = (2x, 2(y − 1))t
∇g1(x, y) = (0, 1)t
∇g2(x, y) = (−pi sen(pix),−1)t
∇g3(x, y) = (−1, 0)t
∇g4(x,y) = (1, 0)t
Como f(x, y) = x2+(y−1)2 ≥ 0 para todo (x, y) viável, (x∗, y∗) = (0, 1)
é viável e f(x∗, y∗) = 0, temos que (x∗, y∗) = (0, 1) é a solução ótima,
sendo que I(x∗, y∗) = {j ∈ {1, 2, 3, 4} | gj(x∗, y∗) = 0} = {2}. Logo,
(x∗, y∗) é regular (pois há apenas uma restrição ativa em x∗), e portanto
pelo teorema 13.1 (p. 97 do livro da Ana) existe µ∗ ≥ 0 tal que:
∇f(x∗, y∗) + µ∗∇g2(x∗, y∗) = 0
(0, 0)t + µ∗(0,−1)t = 0
(µ∗,−µ∗)t = 0
µ∗ = 0
226
13.14 Seja f : Rn → R, f ∈ C1. Seja d˜ ∈ Rn a solução do seguinte problema:
minimizar ∇tf(x)d
s.a. Ad ≤ 0
‖d‖2 = ∑ni=1 d2i ≤ c
onde A ∈ Rm×n, m ≤ n, posto(A)= m e c > 0 é uma constante posi-
tiva. Escreva as condições de otimalidade e interprete geometricamente.
Prove que ∇tf(x)d˜ ≤ 0
O problema consiste em achar um vetor d que esteja no cone poliédrico
(intersecção de um número ﬁnito de semiespaços que contém a origem)
{d|Ad ≤ 0}, dentro da bola de raio √c centrada na origem e que
minimize o produto cos(θ) ‖d‖ (já que ∇tf(x)d = cos(θ) ‖∇f(x)‖ ‖d‖,
e ∇f(x) é constante ).
Supondo que d seja a variável do problema e sendo a1, . . . , am as linhas
de A, temos que o problema equivale a:
(P) minimizar f(d) = ∇tf(x)d
s.a. g1(d) = a
t
1d ≤ 0
.
.
.
gm(d) = a
t
md ≤ 0
gm+1(d) = −c+
∑n
i=1 d
2
i ≤ 0
Os gradientes das funções são dados por:
∇f(d) = ∇f(x)
∇g1(d) = a1
.
.
.
∇gm(d) = am
∇gm+1(d) = 2d
227
Observemos que, como posto(A)= m (posto linha completo), então
AAt ∈ Rm×m é invertível (resultado análogo ao obtido no exercício
1.2).
Suponhamos que d˜ seja um minimizador local regular de (P). Pelas
condições KKT (teorema 2.4.1 da p.22 do livro do Martínez), existem
µ∗ ∈ Rm+ , λ∗ ∈ R+ tal que:
∇f(d˜) +
m∑
i=1
µ∗i∇gi(d˜) + λ∗∇gm+1(d˜) = 0
µ∗i gi(d˜) = 0, i = 1, . . . ,m
λ∗gm+1(d˜) = 0
⇒

∇f(x) +
m∑
i=1
µ∗i ai + λ
∗2d˜ = 0
µ∗i a
t
id˜ = 0, i = 1, . . . ,m
λ∗(−c+∑ni=1 d˜2i ) = 0
⇒

∇f(x) + Atµ∗ + 2λ∗d˜ = 0
Ad˜ ◦ µ∗ = 0 (◦ é o produto de Hadamard)
λ∗(−c+∑ni=1 d˜2i ) = 0 ⇒
A(Atµ∗) = A(−∇f(x)− 2λ∗d˜)
Ad˜ ◦ µ∗ = 0
λ∗(−c+∑ni=1 d˜2i ) = 0 ⇒
µ∗ = (AAt)−1A(−∇f(x)− 2λ∗d˜)
Ad˜ ◦ µ∗ = 0
λ∗(−c+∑ni=1 d˜2i ) = 0 ⇒
µ∗ = −(AAt)−1A∇f(x)− 2λ∗(AAt)−1Ad˜ (∗)
Ad˜ ◦ µ∗ = 0
λ∗(−c+∑ni=1 d˜2i ) = 0 ⇒
µ∗ ◦ µ∗ = −(AAt)−1A∇f(x) ◦ µ∗ − 2λ∗(AAt)−1�����: 0Ad˜ ◦ µ∗
Ad˜ ◦ µ∗ = 0
λ∗(−c+∑ni=1 d˜2i ) = 0
⇒

µ∗ = −(AAt)−1A∇f(x)
Ad˜ ◦ (−(AAt)−1A∇f(x)) = 0
λ∗(−c+∑ni=1 d˜2i ) = 0
−2λ∗(AAt)−1Ad˜ = 0 (por (∗))
⇒
228

µ∗ = −(AAt)−1A∇f(x)
diag(at1d˜, . . . , a
t
md˜)(−(AAt)−1A∇f(x)) = 0
λ∗(−c+∑ni=1 d˜2i ) = 0
−2λ∗(AAt)−1Ad˜ = 0
⇒
Além disso, temos que:
µ∗ ≥ 0
−(AAt)−1A∇f(x) ≥ 0 = −2λ∗(AAt)−1Ad˜
(AAt)−1A∇f(x) ≤ 0 = (AAt)−1A(2λ∗d˜)
∇f(x) ≤ 0 = 2λ∗d˜ (pois (AAt)−1A tem posto completo(∗∗))
∇tf(x)d˜ ≤ 0 = 2λ∗d˜td˜
Geometricamente, temos então que d˜ satisfaz as condições necessárias
para ser uma direção de descida para f em x (já que ∇tf(x)d˜ ≤ 0 ).
(∗∗) Consideremos a desigualdade de postos de Sylvester : se A ∈ Rm×n
e B ∈ Rn×k, então posto(AB) ≥ posto(A) + posto(A) −n. Para o caso
do produto (AAt)−1A (com (AAt)−1 ∈ Rm×m, A ∈ Rm×n), temos:
posto((AAt)−1A) ≥ posto((AAt)−1) + posto(A)−m
= m+m−m
= m
Como m ≤ n, temos também que:
posto((AAt)−1A) ≤ min(m,n)
= m
Portanto, das duas últimas desigualdades segue que posto((AAt)−1A)
= m (isto é, (AAt)−1A tem posto completo).
229
1.14 Capítulo 14 - Algoritmos para restrições não-lineares
14.1 Proponha um método que combine penalização com barreira para
minimizar ctx
s.a. Ax = b
x ≥ 0
onde c, x ∈ Rn, b ∈ Rm e A ∈ Rm×n. Calcule o gradiente da função
penalizada.
Para o problema
minimizar f(x)
s.a. h(x) = 0
, pelo método de penalização temos que a função objetivo do problema
irrestrito associado (para o parâmetro µ > 0) é (pela p. 106 do livro
da Ana) é
φ(x, µ) = f(x) + µ
m∑
i=1
(hi(x))
2
.
Para o problema
minimizar f(x)
s.a. g(x) ≤ 0
, pelo método de barreira temos que uma função objetivo do problema
irrestrito associado (para o parâmetro µ > 0) é (pela p. 107 do livro
da Ana) é
φ(x, µ) = f(x)− µ
n∑
i=1
ln(−gi(x))
.
230
Para o método de penalização precisamos que a sequência de parâ-
metros {µk} seja tal que µk k→∞−−−→ +∞, enquanto para o método de
barreira precisamos que µk
k→∞−−−→ 0+ Portanto, se considerarmos o pro-
blema com ambos os tipos de restrições
minimizar f(x)
s.a. h(x) = 0
g(x) ≤ 0
, temos que um método que combine penalização com barreira irá tentar
minimizar irrestritamente a função
φ(x, µk) = f(x) + µk︸︷︷︸
→+∞
m∑
i=1
(hi(x))
2 +
1
µk︸︷︷︸
→0+
n∑
i=1
[− ln(−gi(x))]
, usando o algoritmo 14.1 (p.106 do livro da Ana) com uma sequên-
cia µk > 0 tal que µk
k→∞−−−→ +∞ e com um ponto inicial que esteja no
interior da região viável (considerando apenas as restrições de desigual-
dade) .
No caso particular do enunciado, temos que o problema é dado por:
minimizar f(x) = ctx
s.a. h(x) = Ax− b = 0
g(x) = −x ≤ 0
Logo, para µ > 0 (sendo a1, . . . , am as linhas de A), a função penalizada
ﬁca:
231
φ(x, µ) = f(x) + µ
m∑
i=1
(hi(x))
2 − 1
µ
n∑
i=1
ln(−gi(x))
= ctx+ µ
m∑
i=1
(atix− bi)2 −
1
µ
n∑
i=1
ln(−[−xi])
= ctx+ µ
m∑
i=1
(atix− bi)2 −
1
µ
n∑
i=1
ln(xi)
Além disso, o gradiente da função penalizada em relação a x é dado
por:
∇xφ(x, µ) = ∇(ctx) + µ
m∑
i=1
∇[(atix− bi)2]−
1
µ
n∑
i=1
∇[ln(xi)]
= c+ µ∇(‖Ax− b‖22)−
1
µ
(
1
x1
, . . . ,
1
xn
)t
= c+ 2µAt(Ax− b)− 1
µ
(
1
x1
, . . . ,
1
xn
)t
14.2 Considere a função de penalização
φλ,µ(x) = f(x) +
m∑
i=1
µi exp(
λihi(x)
µi
)
onde µ, λ ∈ Rm, µi > 0, i = 1, . . . ,m, para resolver o problema (P):
minimizar f(x)
s.a. hi(x) = 0, i = 1, . . . ,m
Seja x˜ uma solução regular de (P) com multiplicadores associados λ˜ ∈
Rm. Prove que x˜ é um ponto estacionário de φλ˜,µ(x).
Como x˜ é uma solução regular de (P) com multiplicadores associados
λ˜ ∈ Rm, então pelo teorema 13.1 (p. 97 do livro da Ana) temos que:
232
∇f(x˜) + J th(x˜)λ˜ = 0
∇f(x˜) +
m∑
i=1
λ˜i∇hi(x˜) = 0
∇f(x˜) = −
m∑
i=1
λ˜i∇hi(x˜)
Além disso, o gradiente de φλ,µ(x) é dado por:
∇φλ,µ(x) = ∇f(x) +
m∑
i=1
µi∇[exp(λihi(x)
µi
)]
= ∇f(x) +
m∑
i=1
��µi exp(
λihi(x)
µi
)
λi
��µi
∇hi(x)
= ∇f(x) +
m∑
i=1
exp(
λihi(x)
µi
)λi∇hi(x)
Daí segue que:
∇φλ˜,µ(x˜) = ∇f(x˜) +
m∑
i=1
exp(
λ˜ihi(x˜)
µi
)λ˜i∇hi(x˜)
= −
m∑
i=1
λ˜i∇hi(x˜) +
m∑
i=1
exp(
λ˜ihi(x˜)
µi
)λ˜i∇hi(x˜)
=
m∑
i=1
[exp(
λ˜ihi(x˜)
µi
)− 1]λ˜i∇hi(x˜)
(x˜ é solução de (P) ⇒ x˜ é factível ⇒ hi(x˜) = 0 ∀i = 1, . . . ,m)
=
m∑
i=1
[exp(0)− 1]λ˜i∇hi(x˜)
=
m∑
i=1
0λ˜i∇hi(x˜)
= 0
233
Logo, x˜ é um ponto estacionário de φλ˜,µ(x˜).
14.3 Considere o problema de minimizar f sujeita a x ∈ R = {x ∈ Rn|g(x) ≤
0}. Para os seguintes casos, desenhe as curvas de nível da função pe-
nalizada.
Como o problema tem apenas restrições de desigualdades, supomos
que a penalização em questão seja do tipo �barreira� (dada pela função
B(x)). Logo, para µ > 0, a função penalizada (p. 107 do livro da Ana)
ﬁca:
φ(x, µ) = f(x) + µB(x) = f(x)− µ
m∑
i=1
1
gi(x)
Temos que B(x) = −
m∑
i=1
1
gi(x)
é suave, não-negativa (para pontos viá-
veis) e tende a +∞ se algum gi(x) → 0 (com g(x) < 0). Portanto, de
forma geral, os valores da função penalizada φ(x, µ) serão semelhantes
aos valores de f para pontos mais para o interior da região viável, e
irão tender a +∞ se estiverem perto da fronteira da região viável.
(a)
Observemos que uma função que possui curvas de níveis parecidas
com essa é a função f(x, y) = −(x+10)2−(y+10)2, como aparece
na ﬁgura a seguir:
234
Figura21: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Além disso, desigualdades que deﬁnem uma região parecida são
dadas por
g1(x, y) = (
x
4
cos(0.48) +
y
4
sen(0.48))2 − 10 + x sen(0.48)− y cos(0.48) ≤ 0
g2(x, y) = (
x
4
cos(−2.64) + y
4
sen(−2.64))2 − 10 + x sen(−2.64)− y cos(−2.64) ≤ 0
, como aparece a seguir:
235
Figura 22: Conjunto viável gerado pelo WolframAlpha.
Portanto, a função penalizada é dada por
φ(x, y, µ) = −(x+ 20)2 − (y + 20)2
− µ[ 1
(x
4
cos(0.48) + y
4
sen(0.48))2 − 10 + x sen(0.48)− y cos(0.48)+
1
(x
4
cos(−2.64) + y
4
sen(−2.64))2 − 10 + x sen(−2.64)− y cos(−2.64)]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ(x, y, µ):
236
Figura 23: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
(b)
Observemos que uma função que possui curvas de níveis parecidas
com essa é a função f(x, y) = 2x + y, como aparece na ﬁgura a
seguir:
237
Figura 24: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Além disso, desigualdades que deﬁnem uma região parecida são
dadas por g1(x, y) = x
2 + y2−1 ≤ 0 e g2(x, y) = 2x+ y ≤ 0, como
aparece a seguir:
Figura 25: Conjunto viável gerado pelo WolframAlpha.
Portanto, a função penalizada é dada por
φ(x, y, µ) = 2x+ y − µ[ 1
x2 + y2 − 1 +
1
2x+ y
]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ(x, y, µ):
238
Figura 26: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
(c)
Observemos que uma função que possui curvas de níveis parecidas
com essa é a função f(x, y) = x + 2y, como aparece na ﬁgura a
seguir:
Figura 27: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Além disso, desigualdades que deﬁnem uma região parecida são
239
dadas por g1(x, y) = tan(
pi
8
)x−y ≤ 0 e g2(x, y) = − tan(3pi8 )x+y ≤
0, como aparece a seguir:
Figura 28: Conjunto viável gerado pelo WolframAlpha.
Portanto, a função penalizada é dada por
φ(x, y, µ) = x+ 2y − µ[ 1
tan(pi
8
)x− y +
1
y − tan(3pi
8
)x
]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ(x, y, µ):
Figura 29: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
240
(d)
Observemos que uma função que possui curvas de níveis parecidas
com essa é a função f(x, y) = x2 − xy + y2 (paraboloide elíptico),
como aparece na ﬁgura a seguir:
Figura 30: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Além disso, desigualdades que deﬁnem uma região parecida são
dadas por g1(x, y) = 2y
2−x2−1 ≤ 0 e g2(x, y) = 2x2−y2−1 ≤ 0,
como aparece a seguir:
241
Figura 31: Conjunto viável gerado pelo WolframAlpha.
Portanto, a função penalizada é dada por
φ(x, y, µ) = x2 − xy + y2 − µ[ 1
2y2 − x2 − 1 +
1
2x2 − y2 − 1]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ(x, y, µ):
Figura 32: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
14.4 Considere o problema de minimizar f sujeita a x ∈ S, onde f : Rn → R
e S ⊆ Rn . Seja P uma função de penalização para S e suponha
242
que a função penalizada q(x, µ) = f(x) + µP (x) para µ = µ˜ tem um
minimizador global em x˜ e que x˜ ∈ S. Prove que x˜ é um minimizador
global do problema original. Interprete.
Suponhamos que a função de penalização tenha as propriedades de ser
suave, ser não negativa (P (x) ≥ 0 ∀x ∈ Rn) e ser nula para, e somente
para, os pontos viáveis (P (x) = 0 ⇐⇒ x ∈ S). Como x˜ é minimizador
global de q(x, µ˜), temos que:
q(x˜, µ˜) ≤ q(x, µ˜) ∀x ∈ Rn
f(x˜) + µ˜P (x˜) ≤ f(x) + µ˜P (x) ∀x ∈ Rn
(x˜ ∈ S ⇒ P (x˜) = 0)
f(x˜) ≤ f(x) + µ˜P (x) ∀x ∈ Rn
(x ∈ S ⇒ P (x) = 0)
f(x˜) ≤ f(x) ∀x ∈ S
Logo, x˜ é um minimizador global do problema original. A interpretação
é que, para um valor suﬁcientemente grande de µ (no caso, µ = µ˜),
para minimizar q(x, µ) = f(x) +µP (x) temos que fazer P (x) = 0 (pois
P (x) ≥ 0 ∀x ∈ Rn). Como P (x) = 0 ⇐⇒ x ∈ S, isso acaba fazendo
com que a função de penalização �suma� e portanto q(x, µ) = f(x) com
x ∈ S para µ suﬁcientemente grande, o que faz um minimizador de
q(x, µ) ser também um minimizador de f(x).
14.5 Seja x˜ minimizador global de f sujeita a x ∈ S, onde f : Rn → R
e S ⊆ Rn . Seja x¯ um ponto não factível para esse problema. Prove
que existe µ¯ > 0 tal que q(x˜, µ) ≤ q(x¯, µ) para todo µ ≥ µ¯, onde
q(x, µ) = f(x) + µP (x) e P é uma função de penalização para S.
Suponhamos que a função de penalização tenha as propriedades de ser
suave, ser não negativa (P (x) ≥ 0 ∀x ∈ Rn) e ser nula para, e somente
para, os pontos viáveis (P (x) = 0 ⇐⇒ x ∈ S).
demonstração 1 (contrapositiva): Provemos a contrapositiva: su-
ponhamos que, para todo µ¯ > 0, temos que q(x˜, µ) > q(x¯, µ) para todo
µ ≥ µ¯. Logo, para todo µ¯ > 0 segue que:
243
q(x˜, µ) > q(x¯, µ) ∀µ ≥ µ¯
f(x˜) + µP (x˜) > f(x¯) + µP (x¯) ∀µ ≥ µ¯
(x˜ ∈ S ⇒ P (x˜) = 0)
f(x˜) > f(x¯) + µP (x¯) ∀µ ≥ µ¯
Suponhamos que x˜ seja minimizador global de f sujeita a x ∈ S e que
x¯ seja um ponto não factível para esse problema. Ambas as suposições
não podem ser verdadeiras ao mesmo tempo, pois pela inequação acima
teríamos f(x˜)
µ→∞−−−→ +∞ (pois P (x¯) > 0, já que x¯ não é factível), o que
é uma contradição com o fato de x˜ ser minimizador global de f sujeita
a x ∈ S.
Logo, x˜ não é minimizador global de f sujeita a x ∈ S ou x¯ não é um
ponto não factível para esse problema, o que prova a contrapositiva do
enunciado.
demonstração 2 (direta): Queremos provar que existe µ¯ > 0 tal que
q(x˜, µ) ≤ q(x¯, µ) ∀µ ≥ µ¯
f(x˜) + µP (x˜) ≤ f(x¯) + µP (x¯) ∀µ ≥ µ¯
(x˜ ∈ S ⇒ P (x˜) = 0)
f(x˜) ≤ f(x¯) + µP (x¯) ∀µ ≥ µ¯
Como x¯ não é factível, P (x¯) > 0. Logo, existe µ¯ > 0 suﬁcientemente
grande tal que:
f(x˜) ≤ f(x¯) + µ¯P (x¯)
≤ f(x¯) + µP (x¯) ∀µ ≥ µ¯
14.6 Considere o problema
minimizar ctx
s.a. l ≤ x ≤ u
244
, onde x, l, u ∈ Rn.
(a) Encontre as condições de otimalidade;
Temos que o problema é equivalente a
(P) minimizar f(x) = ctx
s.a. g1(x) = x1 − u1 ≤ 0
.
.
.
gn(x) = xn − un ≤ 0
gn+1(x) = −x1 + l1 ≤ 0
.
.
.
g2n(x) = −xn + ln ≤ 0
Como a linearidade das restrições é uma condição de qualiﬁcação,
se x∗ é um minimizador local de (P), então pelo teorema 2.4.1 do
livro do Martínez (p. 22, condições KKT gerais) existe λ∗ ∈ R2n+
tal que:
∇f(x∗) +∑2ni=1 λ∗i∇gi(x∗) = 0
λ∗i gi(x
∗) = 0 ∀i = 1, . . . , 2n
gi(x
∗) ≤ 0 ∀i = 1, . . . , 2n
⇒

c+
∑n
i=1 λ
∗
i (0, . . . , 0,
pos. i︷︸︸︷
1 , 0, . . . , 0)t +
+
∑2n
i=n+1 λ
∗
i (0, . . . , 0,
pos. n−i︷︸︸︷
−1 , 0, . . . , 0)t = 0
λ∗i (x
∗
i − ui) = 0 ∀i = 1, . . . , n
λ∗i (−x∗i−n + l∗i−n) = 0 ∀i = n+ 1, . . . , 2n
x∗i − ui ≤ 0 ∀i = 1, . . . , n
−x∗i + l∗i ≤ 0 ∀i = 1, . . . , n
⇒

ci + λ
∗
i − λ∗i+n = 0 ∀i = 1, . . . , n
λ∗i (x
∗
i − ui) = 0 ∀i = 1, . . . , n
λ∗i (−x∗i−n + l∗i−n) = 0 ∀i = n+ 1, . . . , 2n
x∗i − ui ≤ 0 ∀i = 1, . . . , n
−x∗i + l∗i ≤ 0 ∀i = 1, . . . , n
⇒
245
(b) Faça um desenho em R2, considerando os diferentes casos possíveis
relativos à localização da solução.
Como se trata de um problema de programação linear, então os
candidatos a soluções no problema estão nos vértices do paralele-
pípedo deﬁnido pelos vetores l e u.
Em R2, suponhamos que l = (1, 1)t e u = (3, 2)t. O conjunto
viável é dado pela ﬁgura a seguir:
O conjunto viável é dado pela ﬁgura a seguir:
Figura 33: Conjunto viável gerado pelo WolframAlpha .
Logo, os vérticesdo paralelepípedo (retângulo em R2) são x∗1 =
(1, 1)t, x∗2 = (3, 2)
t
, x∗3 = (1, 2)
t
e x∗4 = (3, 1)
t
.
Para f1(x) = x1+x2, pelas curvas de nível da função podemos ver
que a solução ótima é x∗1 = (1, 1)
t
, como mostra a ﬁgura a seguir:
246
Figura 34: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f2(x) = −x1 − x2, pelas curvas de nível da função podemos
ver que a solução ótima é x∗2 = (3, 2)
t
, como mostra a ﬁgura a
seguir:
Figura 35: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
247
Para f3(x) = x1−x2, pelas curvas de nível da função podemos ver
que a solução ótima é x∗3 = (1, 2)
t
, como mostra a ﬁgura a seguir:
Figura 36: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f4(x) = −x1 + x2, pelas curvas de nível da função podemos
ver que a solução ótima é x∗4 = (3, 1)
t
, como mostra a ﬁgura a
seguir:
248
Figura 37: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
(c) Nos diferentes casos, desenhe as curvas de nível da função penali-
zada.
Para o caso em R2 descrito no item (b), temos que o problema é
dado por:
(P) minimizar f(x) = ctx
s.a. g1(x) = x1 − 3 ≤ 0
g2(x) = x2 − 2 ≤ 0
g3(x) = −x1 + 1 ≤ 0
g4(x) = −x2 + 1 ≤ 0
Para f(x) = f1(x) = x1 + x2, a função penalizada é dada por:
φ1(x, µ) = x1 + x2 − µ[ 1
x1 − 3 +
1
x2 − 2 +
1
−x1 + 1 +
1
−x2 + 1]
249
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ1(x, µ):
Figura 38: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f(x) = f2(x) = −x1 − x2, a função penalizada é dada por:
φ2(x, µ) = −x1 − x2 − µ[ 1
x1 − 3 +
1
x2 − 2 +
1
−x1 + 1 +
1
−x2 + 1]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ2(x, µ):
250
Figura 39: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f(x) = f3(x) = x1 − x2, a função penalizada é dada por:
φ3(x, µ) = x1 − x2 − µ[ 1
x1 − 3 +
1
x2 − 2 +
1
−x1 + 1 +
1
−x2 + 1]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ3(x, µ):
251
Figura 40: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Para f(x) = f4(x) = −x1 + x2, a função penalizada é dada por:
φ4(x, µ) = −x1 + x2 − µ[ 1
x1 − 3 +
1
x2 − 2 +
1
−x1 + 1 +
1
−x2 + 1]
Para µ = 1000, obtemos então as seguintes curvas de nível para
φ4(x, µ):
252
Figura 41: Curvas de nível geradas pelo WolframAlpha. Regiões mais claras
indicam valores maiores da função.
Portanto observamos que, em todos os casos, as funções penali-
zadas têm curvas de nível semelhantes, já que os pontos ótimos
estão justamente na fronteira do conjunto viável (e portanto são
esses os pontos que mais são penalizados).
14.7 Considere o problema de minimizar f sujeita a x ∈ S, onde S ⊆ Rn
. Seja xˆ(µ) minimizador local da função penalizada q(x, µ) = f(x) +
µP (x), onde P é uma função de penalização para S. Seja x˜ = lim
µ→∞
xˆ(µ).
Suponha que x˜ ∈ S. O que você pode aﬁrmar sobre x˜ em relação ao
problema original?
Suponhamos que a função de penalização tenha as propriedades de ser
suave, ser não negativa (P (x) ≥ 0 ∀x ∈ Rn) e ser nula para, e somente
para, os pontos viáveis (P (x) = 0 ⇐⇒ x ∈ S).
Como xˆ(µ) é minimizador local da função penalizada q(x, µ) = f(x) +
µP (x), então existe ε > 0 tal que:
253
q(xˆ(µ), µ) ≤ q(x, µ) ∀x ∈ B(xˆ(µ), ε)
f(xˆ(µ)) + µP (xˆ(µ)) ≤ f(x) + µP (x) ∀x ∈ B(xˆ(µ), ε)
(para P e f contínuas, tomando lim
µ→∞
de ambos os lados temos:)
f(x˜) + µP (x˜) ≤ f(x) + µP (x) ∀x ∈ B(x˜, ε)
(x˜ ∈ S ⇒ P (x˜) = 0)
f(x˜) ≤ f(x) + µP (x) ∀x ∈ B(x˜, ε)
(x ∈ B(x˜, ε) ∩ S ⇒ P (x) = 0)
f(x˜) ≤ f(x) ∀x ∈ B(x˜, ε) ∩ S
Portanto, x˜ é minimizador local de f sujeita a x ∈ S (que é o problema
original).
14.8 Considere o problema de minimizar f(x) sujeita a h(x) = 0, f : Rn →
R, h : Rn → Rm e f, h ∈ C1 . Seja x˜ uma solução regular desse pro-
blema. Suponha que pelo menos um dos multiplicadores de Lagrange
associados a x˜ é diferente de zero. Prove que x˜ não é minimizador local
de q(x, µ) ≡ f(x) + µ ‖h(x)‖2 para nenhum valor ﬁnito de µ.
Provemos a contrapositiva: suponhamos que x˜ seja minimizador local
de q(x, µ) ≡ f(x) + µ ‖h(x)‖2 para todo valor ﬁnito de µ. Portanto,
temos que:
∇q(x˜, µ) = 0
∇f(x˜) + 2µ
m∑
i=1
hi(x˜)∇hi(x˜) = 0 (i)
Como x˜ é solução regular do problema f(x) sujeita a h(x) = 0, pelas
condições KKT (teorema 2.4.1 da p.22 do livro do Martínez), então
existe um único λ∗ ∈ Rm tal que :
254
∇f(x˜) +
m∑
i=1
λ∗i∇hi(x˜) = 0
∇f(x˜) = −
m∑
i=1
λ∗i∇hi(x˜) (ii)
Utilizando (ii) em (i), obtemos:
−
m∑
i=1
λ∗i∇hi(x˜) + 2µ
m∑
i=1
hi(x˜)∇hi(x˜) = 0
m∑
i=1
(2µhi(x˜)− λ∗i )∇hi(x˜) = 0
Como x˜ é solução regular do problema f(x) sujeita a h(x) = 0, então
o conjunto {∇h1(x˜), . . . ,∇hm(x˜)} é linearmente independente. Logo,
pela equação anterior temos que todos os coeﬁcientes da combinação
linear dos gradientes das restrições devem ser nulos, isto é:
2µhi(x˜)− λ∗i = 0 ∀i = 1, . . . ,m
λ∗i = 2µhi(x˜) ∀i = 1, . . . ,m
(x˜ é solução do problema⇒ hi(x˜) = 0 ∀i = 1, . . . ,m)
λ∗i = 0 ∀i = 1, . . . ,m
Poranto, todos os multiplicadores de Lagrange associados a x˜ são iguais
a zero, o que prova a contrapositiva do enunciado.
14.9 Considere o problema de minimizar f(x) sujeita a h(x) = 0, onde
f : Rn → R e h : Rn → Rm. Considere o problema penalizado, de
minimizar q(x, µ) ≡ f(x)+µ ‖h(x)‖22 . Mostre que os multiplicadores de
Lagrange resultam ser os limites de certas quantidades que dependem
do parâmetro de penalização.
255
Seja xˆ(µ) minimizador local da função penalizada q(x, µ) . Seja x˜ =
lim
µ→∞
xˆ(µ), e suponhamos x˜ viável (i.e., h(x˜) = 0).
Como xˆ(µ) é minimizador local de q(x, µ), temos que:
∇q(xˆ(µ), µ) = 0
∇f(xˆ(µ)) + 2µ
m∑
i=1
hi(xˆ(µ))∇hi(xˆ(µ)) = 0
(para h e f contínuas, tomando lim
µ→∞
de ambos os lados temos:)
∇f(x˜) +
m∑
i=1
[ lim
µ→∞
2µhi(x˜)]∇hi(x˜) = 0
Pelo exercício 14.7, sabemos que x˜ é minimizador local de f(x) sujeita
a h(x) = 0. Logo, pela unicidade dos multiplicadores de Lagrange
(teorema 2.4.1 da p.22 do livro do Martínez) e pela equação anterior,
temos que os multiplicadores de Lagrange do problema restrito (mini-
mizar f(x) sujeita a h(x) = 0) são:
λi = lim
µ→∞
2µhi(x˜) ∀i = 1, . . . ,m
Logo, multiplicadores de Lagrange resultam ser os limites de certas
quantidades que dependem do parâmetro de penalização (µ).
14.10 Suponhamos que, ao aplicar o método de penalização ao problema
minimizar −x1 − x2 + x3
s.a. x31 + x3 ≤ 1
x21 + x
2
2 + x
2
3 ≤ 1
0 ≤ x3 ≤ 1
obtivemos os seguintes resultados:
256
k µk x
k
0 1 (0.8344, 0.8344,−0.4548)t
1 10 (0.7283, 0.7283,−0.0879)t
2 100 (0.7096, 0.7096,−0.0099)t
3 1000 (0.7074, 0.7074,−0.0010)t
Utilize os dados acima para estimar a solução ótima e os multiplicadores
de Lagrange, juntamente com as restrições ativas. Discuta a precisão
atingida.
O problema acima pode ser reescrito como:
minimizar f(x) = −x1 − x2 + x3
s.a. g1(x) = x
3
1 + x3 − 1 ≤ 0
g2(x) = x
2
1 + x
2
2 + x
2
3 − 1 ≤ 0
g3(x) = x3 − 1 ≤ 0
g4(x) = −x3 ≤ 0
Analisemos (x∗)′ = (0.7074, 0.7074,−0.0010)t (aproximação da solução
ótima na iteração k = 3). As restrições �quase� ativas em (x∗)′ são
dadas pelo conjunto I = {2, 4}. Os gradientes das funções são dados
por:
∇f(x) = (−1,−1, 1)t
∇g1(x) = (3x1, 0, 1)t
∇g2(x) = (2x1, 2x2, 2x3)t
∇g3(x) = (0, 0, 1)t
∇g4(x) = (0, 0,−1)t
Seja x∗ o mínimo local que está supostamentepróximo de (x∗)′. Pelas
coordenadas de (x∗)′, se assumirmos x∗1 6= 0, x∗2 6= 0, x∗3 = 0, para
a, b ∈ R temos que:
257
a∇g2(x∗) + b∇g4(x∗) = 0⇒
a(2x∗1, 2x
∗
2, 2(0))
t + b(0, 0,−1)t = 0⇒
(2ax∗1, 2ax
∗
2,−b)t = 0⇒
a = b = 0
Logo, {∇g2(x∗),∇g4(x∗)} é um conjunto linearmente independente, e
assim x∗ é regular. Logo, pelas condições KKT (teorema 2.4.1 da p.22
do livro do Martínez), existe único µ∗ ∈ R2+ tal que:
∇f(x∗) + µ∗1∇g2(x∗) + µ∗2∇g4(x∗) = 0
g2(x
∗) = 0
g4(x
∗) = 0
g1(x
∗) ≤ 0
g3(x
∗) ≤ 0
⇒

(−1,−1, 1)t + µ∗1(2x∗1, 2x∗2, 2x∗3)t + µ∗2(0, 0,−1)t = 0
(x∗1)
2 + (x∗2)
2 + (x∗3)
2 − 1 = 0
−x∗3 = 0
(x∗1)
3 + x∗3 − 1 ≤ 0
x∗3 − 1 ≤ 0
x∗3=0==⇒

(−1 + 2µ∗1x∗1,−1 + 2µ∗1x∗2, 1− µ∗2)t = 0
(x∗1)
2 + (x∗2)
2 = 1
x∗3 = 0
(x∗1)
3 − 1 ≤ 0
⇒

−1 + 2µ∗1x∗1 = 0
−1 + 2µ∗1x∗2 = 0
1− µ∗2 = 0
(x∗1)
2 + (x∗2)
2 = 1
x∗3 = 0
(x∗1)
3 − 1 ≤ 0
⇒
258

µ∗1 =
1
2x∗1
µ∗1 =
1
2x∗2
µ∗2 = 1
(x∗1)
2 + (x∗2)
2 = 1
x∗3 = 0
(x∗1)
3 − 1 ≤ 0
⇒

µ∗1 =
1
2x∗1
µ∗2 = 1
x∗1 = x
∗
2
(x∗1)
2 + (x∗2)
2 = 1
x∗3 = 0
(x∗1)
3 − 1 ≤ 0
⇒

x∗1 = x
∗
2 = ±
√
2
2
µ∗1 =
1
2x∗1
= ±
√
2
2
µ∗2 = 1
Como a função objetivo é f(x) = −x1−x2 +x3, então o ponto estacio-
nário que minimiza f no conjunto viável é x∗ = (
√
2
2
,
√
2
2
, 0)t. Portanto,
em relação à solução, a precisão atingida foi de:
‖x∗ − (x∗)′‖2 =
∥∥∥∥∥(
√
2
2
,
√
2
2
, 0)t − (0.7074, 0.7074,−0.0010)t
∥∥∥∥∥
2
=
√
(
√
2
2
− 0.7074)2 + (
√
2
2
− 0.7074)2 + (0 + 0.0010)2
≈ 0.00108
≈ 10−3
Como a penalização correspondente a essa solução foi de µ = 1000 =
103, faz sentido que a precisão da solução seja algo inversamente pro-
porcional a µ (que foi o que ocorreu).
Estimemos agora os multiplicadores (µ∗)′ a partir de (x∗)′ = (0.7074, 0.7074,−0.0010)t.
Temos que:
259
∇f((x∗)′) + (µ∗1)′∇g2((x∗)′) + (µ∗2)′∇g4((x∗)′) = 0
(−1,−1, 1)t + (µ∗1)′(2(0.7074), 2(0.7074), 2(−0.0010))t + (µ∗2)′(0, 0,−1)t = 0
(−1 + 1.4148(µ∗1)′,−1 + 1.4148(µ∗1)′, 1− 0.0020(µ∗1)′ − (µ∗2)′)t = 0
{
−1 + 1.4148(µ∗1)′ = 0
1− 0.0020(µ∗1)′ − (µ∗2)′ = 0
⇒{
(µ∗1)
′ = 1
1.4148
≈ 0.7068
(µ∗2)
′ = 1− 0.0020(µ∗1)′ = 1− 0.00201.4148 = 1.41281.4148 ≈ 0.9985
Portanto, em relação aos multiplicadores, a precisão atingida foi de:
‖µ∗ − (µ∗)′‖2 =
∥∥∥∥∥(
√
2
2
, 1)t − ( 1
1.4148
,
1.4128
1.4148
)t
∥∥∥∥∥
2
=
√
(
√
2
2
− 1
1.4148
)2 + (1− 1.4128
1.4148
)2
≈ 0.00144
≈ 10−3
Novamente, como a penalização correspondente a essa solução foi de
µ = 1000 = 103, faz sentido que a precisão dos multiplicadores seja
algo inversamente proporcional a µ (que foi o que ocorreu).
2 Exercícios dados em aula
2.1 Convexidade
1. Prove que se {Ci}i∈I é uma família (possivelmente inﬁnita) de conjuntos
convexos, então
⋂
i∈I
Ci é convexo.
Seja {Ci}i∈I uma família (possivelmente inﬁnita) de conjuntos con-
vexos, e sejam x, y ∈ ⋂
i∈I
Ci. Para cada i ∈ I, como Ci é convexo,
∀λ ∈ [0, 1] segue que λx + (1− λ)y ∈ Ci. Logo, todas as combinações
260
convexas de elementos de
⋂
i∈I
Ci estão em todos os Ci para i ∈ I, isto é,
estão em
⋂
i∈I
Ci. Portanto,
⋂
i∈I
Ci é convexo.
2. Prove que se C1 e C2 são convexos, então C1 + C2 = {c1 + c2 | ci ∈
C1, c2 ∈ C2} é convexo.
Sejam x, y ∈ C1+C2 e λ ∈ [0, 1]. Logo, existem x1, y1 ∈ C1 e x2, y2 ∈ C2
tais que x = x1 + x2 e y = y1 + y2. Temos então que:
λx+ (1− λ)y = λ(x1 + x2) + (1− λ)(y1 + y2)
= x1 + (1− λ)y1︸ ︷︷ ︸
∈C1
+x2 + (1− λ)y2︸ ︷︷ ︸
∈C2
Logo, x+ (1− λ)y ∈ C1 +C2. Como x, y, λ foram escolhidos arbitrari-
amente, segue que C1 + C2 é convexo.
3. Prove que se T : Rn → Rm é uma transformação linear e C é convexo,
então T (C) = {T (c) | c ∈ C} é convexo.
Sejam x, y ∈ T (C) e λ ∈ [0, 1]. Logo, existem x0, y0 ∈ C tais que
T (x0) = x e T (y0) = y. Temos então que:
λx+ (1− λ)y = T (x0) + (1− λ)T (y0)
= T (x0) + T ((1− λ)y0)
= T (x0 + (1− λ)y0︸ ︷︷ ︸
∈C
)
Logo, x + (1 − λ)y ∈ T (C). Como x, y, λ foram escolhidos arbitraria-
mente, segue que T (C) é convexo.
4. Prove que se C é convexo e f : C → R, então o conjunto de nível
{x ∈ C | f(x) ≤M} é convexo ∀M .
Seja nivM(f) = {x ∈ C | f(x) ≤ M} o conjunto de nível de f corres-
pondente à constante M ∈ R.
Provemos que nivM(f) é um conjunto convexo. Para x, y ∈ nivM(f) e
λ ∈ [0, 1], temos que:
261
f(λx+ (1− λ)y) ≤ λf(x) + (1− λ)f(y) (f é convexa)
≤ λM + (1− λ)M (x, y ∈ nivM(f))
= M
Logo, λx+ (1−λ)y ∈ nivM(f). Como x, y, λ são arbitrários, segue que
nivM(f) é um conjunto convexo.
5. Prove que se f é aﬁm, então f é convexa (não estrita). Além disso,
prove que {x ∈ C | f(x) = M} é convexo ∀M .
Consideremos f : Rn → Rm uma função aﬁm. Logo, existem A ∈ Rm×n
e b ∈ Rm tais que f(x) = Ax+ b.
Sejam x, y ∈ Rn e λ ∈ [0, 1]. Temos que:
f(λx+ (1− λ)y) = A(λx+ (1− λ)y) + (λ+ (1− λ))b
= λAx+ λb+ (1− λ)Ay + (1− λ)b
= λ(Ax+ b) + (1− λ)(Ay + b)
= λf(x) + (1− λ)f(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que f é convexa.
Além disso, sejam z, w ∈ {x ∈ C | f(x) = M} e λ ∈ [0, 1]. Pelas
equações acima temos que:
f(λz + (1− λ)w) = λf(z) + (1− λ)f(w)
= λM + (1− λ)M
= M
Logo, λz + (1 − λ)w ∈ {x ∈ C | f(x) = M}. Como z, w, λ são
arbitrários, segue que {x ∈ C | f(x) = M} é um conjunto convexo.
6. Prove que se f é quadrática , i.e., f(x) = 1
2
xtAx+ btx+ c, x ∈ Rn e A
é semideﬁnida positiva, então f é convexa (a recíproca também vale).
262
⇒ Sejam x, y ∈ Rn e λ ∈ [0, 1]. Temos que:
f(λx+ (1− λ)y) = f(y + λ(x− y))
=
1
2
(y + λ(x− y))tA(y + λ(x− y)) + bt(y + λ(x− y)) + c
=
1
2
ytAy + λ(x− y)tAy + 1
2
λ2︸︷︷︸
<λ
(x− y)tA(x− y)︸ ︷︷ ︸
≥0
+λbtx+ (1− λ)bty+
+ (λ+ (1− λ))c
≤ 1
2
ytAy + λ(x− y)tAy + 1
2
λ(x− y)tA(x− y) + λbtx+ (1− λ)bty+
+ (λ+ (1− λ))c
= λ(
1
2
xtAx+ btx+ c) + (1− λ)(1
2
ytAy + bty + c)
= λf(x) + (1− λ)f(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que f é convexa.
⇐ Queremos provar que se f(x) = 1
2
xtAx + btx + c é convexa então
A é semideﬁnida positiva. Por contradição, suponhamos que A não
seja semideﬁnida positiva. Logo, existe r ∈ Rn tal que rtAr < 0.
Considermos o conjunto S = {θr | θ ∈ R}.
Sejam x, y ∈ S (x 6= y). Logo, existem θx, θy ∈ R tais que x = θxr e
y = θyr. Para λ ∈ [0, 1], temos que:
263
f(λx+ (1− λ)y) = f(y + λ(x− y))
=
1
2
(y + λ(x− y))tA(y + λ(x− y)) + bt(y + λ(x− y)) + c
=
1
2
ytAy + λ(x− y)tAy + 1
2
λ2︸︷︷︸
<λ
(θx − θy)2︸ ︷︷ ︸
>0
rtAr︸︷︷︸
<0
+λbtx+ (1− λ)bty+
+ (λ+ (1− λ))c
>
1
2
ytAy + λ(x− y)tAy + 1
2
λ(x− y)tA(x− y) + λbtx+ (1− λ)bty+
+ (λ+ (1− λ))c
= λ(
1
2
xtAx+ btx+ c) + (1− λ)(1
2
ytAy + bty + c)
= λf(x) + (1− λ)f(y)
Logo, f não é convexa em S, o que é uma contradição pois f é convexa.
Logo, A é semideﬁnida positiva.
7. Prove que a função ‖x‖2 =
√
x21 + . . .+ x
2
n é convexa.
Provemos que g(x) = ‖x‖2 é convexa. Sejam x, y ∈ S (conjunto con-
vexo que é o domínio de g) e λ ∈ [0, 1]. Temos que:
g(λx+ (1− λ)y) = ‖λx+ (1− λ)y‖2
≤ ‖λx‖2 + ‖(1− λ)y‖2 (desig. triang)
= λ ‖x‖2 + (1− λ) ‖y‖2 (‖.‖2 é norma e λ, 1− λ ∈ R+)
= λg(x) + (1− λ)g(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que g é convexa.
8. Prove que a soma e o máximo de duas funções convexas são funções
convexas.
Seja f(x) = max{g(x), h(x)}, onde g e h são funções convexas. Sejam
x, y ∈ S (conjunto convexo que é o domínio de g e h) e λ ∈ [0, 1].
Temos que:
264
f(λx+ (1− λ)y) = max{g(λx+ (1− λ)y), h(λx+ (1− λ)y)}
≤ max{λg(x) + (1− λ)g(y), λh(x) + (1− λ)h(y)}
(g, h são convexas)
≤ max{λg(x), λh(x)}+ max{(1− λ)g(y), (1− λ)h(y)}
= λmax{g(x), h(x)}+ (1− λ) max{g(y), h(y)}
= λf(x)+ (1− λ)f(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que f é convexa.
Finalmente, seja p(x) = g(x) + h(x), onde g e h são funções convexas.
Sejam x, y ∈ S (conjunto convexo que é o domínio de g e h) e λ ∈ [0, 1].
Temos que:
p(λx+ (1− λ)y) = g(λx+ (1− λ)y) + h(λx+ (1− λ)y)
≤ λg(x) + (1− λ)g(y) + λh(x) + (1− λ)h(y) (g, h convexas)
= λ(g(x) + h(x)) + (1− λ)(g(y) + h(y))
= λp(x) + (1− λ)p(y)
Como x, y, λ foram escolhidos arbitrariamente, segue que p é convexa.
265
	Exercícios do livro Elementos de Programação Não-linear
	Capítulo 1 - Revisão de Álgebra Linear e Cálculo
	Capítulo 2 - Condições de otimalidade para minimização sem restrições
	Capítulo 3 - Convexidade
	Capítulo 4 - Modelo de algoritmo com buscas direcionais
	Capítulo 5 - Ordem de convergência
	Capítulo 6 - Métodos clássicos de descida
	Capítulo 7 - Minimização com restrições lineares de igualdade
	Capítulo 8 - Algoritmos para restrições lineares de igualdade
	Capítulo 9 - Minimização com restrições lineares de desigualdade
	Capítulo 10 - Método de restrições ativas
	Capítulo 11 - Minimização com restrições lineares de igualdade e desigualdade
	Capítulo 12 - Minimização com restrições não-lineares de igualdade 
	Capítulo 13 - Minimização com restrições não-lineares de igualdade e desigualdade
	Capítulo 14 - Algoritmos para restrições não-lineares
	Exercícios dados em aula
	Convexidade
exerciciosAna

FURG

Ferramentas de estudo

Conteúdos escolhidos para você

Matemática para Ensino Superior MA11 AtividadesGabarito 2013

Direitos Autorais e Responsabilidades

Matemática Discreta Aula 04

Equações Diferenciais Ordinárias

Perguntas dessa disciplina

pesquisa operacional (questao discursiva) O(A) Em branco 1 Questão 1 caminha pelos vértices da região viável de respostas até encontrar uma solu...

O(A) caminha pelos vértices da região viável de respostas até encontrar uma solução que não possua soluções vizinhas melhores que ela, enquanto que...

O(A) Em branco 1 Questão 1 caminha pelos vértices da região viável de respostas até encontrar uma solução que não possua soluções vizinhas melho...

“As funções são pequenos códigos ou algoritmos que retornam valores específicos e podem ser usadas por outros algoritmos. Têm como vantagem o fato de

vDentro da qualidade verificamos que é importante delimitar as faixas de aceitação de qualquer processo produtivo, uma vez que sempre, em algum nível,

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Escolha uma das opções e acesse esse e outros materiais sem bloqueio. 🤩

Conteúdos escolhidos para você

Matemática para Ensino Superior MA11 AtividadesGabarito 2013

Direitos Autorais e Responsabilidades

Matemática Discreta Aula 04

Equações Diferenciais Ordinárias

Perguntas dessa disciplina

pesquisa operacional (questao discursiva) O(A) Em branco 1 Questão 1 caminha pelos vértices da região viável de respostas até encontrar uma solu...

O(A) caminha pelos vértices da região viável de respostas até encontrar uma solução que não possua soluções vizinhas melhores que ela, enquanto que...

O(A) Em branco 1 Questão 1 caminha pelos vértices da região viável de respostas até encontrar uma solução que não possua soluções vizinhas melho...

“As funções são pequenos códigos ou algoritmos que retornam valores específicos e podem ser usadas por outros algoritmos. Têm como vantagem o fato de

vDentro da qualidade verificamos que é importante delimitar as faixas de aceitação de qualquer processo produtivo, uma vez que sempre, em algum nível,

Mais conteúdos dessa disciplina