O conceito de lagrangiana está sempre relacionado ao seguinte problema:
(
P
)
{
min
f
(
x
)
g
i
(
x
)
≤
0
;
i
=
1
,
…
,
p
h
j
(
x
)
=
0
;
j
=
1
,
…
,
q
{\displaystyle (P)\left\{{\begin{matrix}\min f(x)\\g_{i}(x)\leq 0;i=1,\ldots ,p\\h_{j}(x)=0;j=1,\ldots ,q\end{matrix}}\right.}
Definição
A função lagrangiana associada ao problema
(
P
)
{\displaystyle (P)}
é
l
:
R
n
×
R
p
×
R
q
↦
R
{\displaystyle l:\mathbb {R} ^{n}\times \mathbb {R} ^{p}\times \mathbb {R} ^{q}\mapsto \mathbb {R} }
definida por
l
(
x
,
u
,
v
)
=
f
(
x
)
+
∑
i
=
1
p
u
i
g
i
(
x
)
+
∑
j
=
1
q
v
j
h
j
(
x
)
{\displaystyle l(x,u,v)=f(x)+\sum _{i=1}^{p}u_{i}g_{i}(x)+\sum _{j=1}^{q}v_{j}h_{j}(x)}
.
Wikipedia
Em alguns livros é usada a seguinte notação:
G
:
R
n
↦
R
p
{\displaystyle G:\mathbb {R} ^{n}\mapsto \mathbb {R} ^{p}}
definida por
G
(
x
)
=
[
g
1
(
x
)
⋮
g
p
(
x
)
]
{\displaystyle G(x)={\begin{bmatrix}g_{1}(x)\\\vdots \\g_{p}(x)\end{bmatrix}}}
e
H
:
R
n
↦
R
q
{\displaystyle H:\mathbb {R} ^{n}\mapsto \mathbb {R} ^{q}}
definida por
H
(
x
)
=
[
h
1
(
x
)
⋮
h
q
(
x
)
]
{\displaystyle H(x)={\begin{bmatrix}h_{1}(x)\\\vdots \\h_{q}(x)\end{bmatrix}}}
Deste modo, a lagrangiana fica expressa por
l
(
x
,
u
,
v
)
=
f
(
x
)
+
u
⊤
G
(
x
)
+
v
⊤
H
(
x
)
{\displaystyle l(x,u,v)=f(x)+u^{\top }G(x)+v^{\top }H(x)}
que é uma representação bem mais compacta.
Para permitir a compreensão da importância da função lagrangiana em otimização, é preciso ter em mente os principais resultados que garantem a otimalidade de uma solução para o problema
(
P
)
{\displaystyle (P)}
. Nas próximas seções será apresentado um breve resumo das condições de otimalidade, dividindo-as em dois casos:
Caso particular: quando
C
=
{
x
∈
R
n
;
g
i
(
x
)
≤
0
e
h
j
(
x
)
=
0
}
{\displaystyle C=\{x\in \mathbb {R} ^{n};g_{i}(x)\leq 0{\text{ e }}h_{j}(x)=0\}}
é convexo e fechado.
Caso geral: quando
C
{\displaystyle C}
é arbitrário.
Demonstração
Seja
x
¯
∈
C
{\displaystyle {\bar {x}}\in C}
uma solução de
(
P
)
{\displaystyle (P)}
, e fixe um ponto arbitrário
x
∈
C
{\displaystyle x\in C}
. Denote por
θ
{\displaystyle \theta }
a restrição da função
f
{\displaystyle f}
sobre o segmento de reta que passa por
x
{\displaystyle x}
e por
x
¯
{\displaystyle {\bar {x}}}
, ou seja,
θ
(
t
)
=
f
(
x
¯
+
t
(
x
−
x
¯
)
)
{\displaystyle \theta (t)=f({\bar {x}}+t(x-{\bar {x}}))}
, com
t
∈
(
0
,
1
)
{\displaystyle t\in (0,1)}
.
Note que
θ
(
0
)
=
f
(
x
¯
)
{\displaystyle \theta (0)=f({\bar {x}})}
.
Como
x
¯
{\displaystyle {\bar {x}}}
é um minimizador de
f
{\displaystyle f}
em
C
{\displaystyle C}
, tem-se:
θ
(
t
)
=
f
(
x
¯
+
t
(
x
−
x
¯
)
)
≥
f
(
x
¯
)
=
θ
(
0
)
{\displaystyle \theta (t)=f({\bar {x}}+t(x-{\bar {x}}))\geq f({\bar {x}})=\theta (0)}
, para todo
t
∈
(
0
,
1
)
{\displaystyle t\in (0,1)}
Logo,
θ
(
t
)
−
θ
(
0
)
t
−
0
≥
0
{\displaystyle {\frac {\theta (t)-\theta (0)}{t-0}}\geq 0}
, ou seja,
θ
′
(
0
)
=
lim
t
→
0
θ
(
t
)
−
θ
(
0
)
t
−
0
≥
0
{\displaystyle \theta '(0)=\lim _{t\to 0}{\frac {\theta (t)-\theta (0)}{t-0}}\geq 0}
Mas pela regra da cadeia,
θ
′
(
0
)
=
⟨
∇
f
(
x
¯
)
,
x
−
x
¯
⟩
{\displaystyle \theta '(0)=\langle \nabla f({\bar {x}}),x-{\bar {x}}\rangle }
, então
⟨
∇
f
(
x
¯
)
,
x
−
x
¯
⟩
≥
0
{\displaystyle \langle \nabla f({\bar {x}}),x-{\bar {x}}\rangle \geq 0}
.
Como
x
∈
C
{\displaystyle x\in C}
era arbitrário, o resultado está demonstrado.
Observação
A condição
⟨
u
,
v
⟩
≥
0
{\displaystyle \langle u,v\rangle \geq 0}
significa que os vetores
u
{\displaystyle u}
e
v
{\displaystyle v}
formam um ângulo reto ou agudo (menor ou igual a 90 graus), conforme indicado na figura a seguir:
Em um ponto de mínimo,
∇
f
{\displaystyle \nabla f}
sempre forma ângulo menor ou igual a 90 graus com os vetores do tipo
x
−
x
¯
{\displaystyle x-{\bar {x}}}
, onde
x
¯
{\displaystyle {\bar {x}}}
é um ponto de mínimo da função no conjunto viável
C
{\displaystyle C}
e
x
{\displaystyle x}
é um ponto qualquer deste conjunto.
No caso específico, com
u
=
∇
f
{\displaystyle u=\nabla f}
e
v
=
x
−
x
¯
{\displaystyle v=x-{\bar {x}}}
,
⟨
u
,
v
⟩
{\displaystyle \langle u,v\rangle }
é a derivada direcional de
f
{\displaystyle f}
na direção
x
−
x
¯
{\displaystyle x-{\bar {x}}}
. Quando tal número é não negativo, intuitivamente a função cresce naquela direção.
Quando
C
{\displaystyle C}
é um conjunto convexo e fechado, a existência de uma solução para o problema
(
P
)
{\displaystyle (P)}
é garantida pela seguinte proposição:
Proposição
Se
x
¯
∈
C
{\displaystyle {\bar {x}}\in C}
,
f
{\displaystyle f}
é convexa e
⟨
∇
f
(
x
)
,
x
−
x
¯
⟩
≥
0
,
∀
x
∈
C
{\displaystyle \langle \nabla f(x),x-{\bar {x}}\rangle \geq 0,\,\forall x\in C}
então
x
¯
{\displaystyle {\bar {x}}}
é um minimizador global de
f
{\displaystyle f}
no conjunto
C
{\displaystyle C}
(isto é,
x
¯
{\displaystyle {\bar {x}}}
é solução de
(
P
)
{\displaystyle (P)}
).
Demonstração
Pela convexidade de
f
{\displaystyle f}
, tem-se que:
f
(
x
)
≥
f
(
x
¯
)
+
⟨
∇
f
(
x
)
,
x
−
x
¯
⟩
,
∀
x
∈
R
n
{\displaystyle f(x)\geq f({\bar {x}})+\langle \nabla f(x),x-{\bar {x}}\rangle ,\,\forall x\in \mathbb {R} ^{n}}
Logo,
f
(
x
)
−
f
(
x
¯
)
≥
⟨
∇
f
(
x
)
,
x
−
x
¯
⟩
≥
0
,
∀
x
∈
C
{\displaystyle f(x)-f({\bar {x}})\geq \langle \nabla f(x),x-{\bar {x}}\rangle \geq 0,\,\forall x\in C}
Portanto,
f
(
x
)
≥
f
(
x
¯
)
,
∀
x
∈
C
{\displaystyle f(x)\geq f({\bar {x}}),\,\forall x\in C}
, ou seja,
x
¯
{\displaystyle {\bar {x}}}
é um minimizador de
f
{\displaystyle f}
em
C
{\displaystyle C}
.
Até aqui, não é exigido que qualquer das funções
g
i
{\displaystyle g_{i}}
ou
h
j
{\displaystyle h_{j}}
sejam diferenciáveis. Isto será utilizado mais adiante, nos algoritmos.
A próxima proposição fornece uma caracterização dos minimizadores, em termos do conceito de projeção.
Lembre-se que a projeção de um ponto
y
¯
{\displaystyle {\bar {y}}}
sobre o conjunto
C
{\displaystyle C}
, denotada por
P
¯
=
P
C
(
y
¯
)
{\displaystyle {\bar {P}}=P_{C}({\bar {y}})}
, satisfaz
⟨
P
¯
−
y
¯
,
x
−
P
¯
⟩
≥
0
,
∀
x
∈
C
{\displaystyle \langle {\bar {P}}-{\bar {y}},x-{\bar {P}}\rangle \geq 0,\,\forall x\in C}
. Na verdade, vale:
P
¯
=
P
C
(
y
¯
)
⇔
⟨
P
¯
−
y
¯
,
x
−
P
¯
⟩
≥
0
,
∀
x
∈
C
{\displaystyle {\bar {P}}=P_{C}({\bar {y}})\Leftrightarrow \langle {\bar {P}}-{\bar {y}},x-{\bar {P}}\rangle \geq 0,\,\forall x\in C}
O vetor
P
¯
−
y
¯
{\displaystyle {\bar {P}}-{\bar {y}}}
forma ângulo menor que 90 graus com o vetor
x
−
P
¯
{\displaystyle x-{\bar {P}}}
, pois
P
¯
{\displaystyle {\bar {P}}}
é a projeção de
y
¯
{\displaystyle {\bar {y}}}
sobre o conjunto
C
{\displaystyle C}
.
Demonstração
(1)
Como
x
¯
{\displaystyle {\bar {x}}}
é um minimizador local de
f
{\displaystyle f}
em
C
{\displaystyle C}
, então
⟨
∇
f
(
x
)
,
x
−
x
¯
⟩
≥
0
,
∀
x
∈
C
{\displaystyle \langle \nabla f(x),x-{\bar {x}}\rangle \geq 0,\,\forall x\in C}
Observe que essa desigualdade equivale à
⟨
α
∇
f
(
x
)
,
x
−
x
¯
⟩
≥
0
,
∀
x
∈
C
{\displaystyle \langle \alpha \nabla f(x),x-{\bar {x}}\rangle \geq 0,\,\forall x\in C}
ou ainda
⟨
x
¯
−
(
x
¯
−
α
∇
f
(
x
)
)
,
x
−
x
¯
⟩
≥
0
,
∀
x
∈
C
{\displaystyle \langle {\bar {x}}-({\bar {x}}-\alpha \nabla f(x)),x-{\bar {x}}\rangle \geq 0,\,\forall x\in C}
Tomando
y
¯
=
x
¯
−
α
∇
f
(
x
)
{\displaystyle {\bar {y}}={\bar {x}}-\alpha \nabla f(x)}
e
P
=
x
¯
{\displaystyle P={\bar {x}}}
, tem-se a equivalência com:
⟨
P
−
y
¯
,
x
−
P
⟩
≥
0
,
∀
x
∈
C
{\displaystyle \langle P-{\bar {y}},x-P\rangle \geq 0,\,\forall x\in C}
que equivale a dizer que
P
=
P
C
(
y
¯
)
{\displaystyle P=P_{C}({\bar {y}})}
, ou seja:
x
¯
=
P
=
P
C
(
y
¯
)
=
P
C
(
x
¯
−
α
∇
f
(
x
)
)
{\displaystyle {\bar {x}}=P=P_{C}({\bar {y}})=P_{C}({\bar {x}}-\alpha \nabla f(x))}
(2)
Reciprocamente, supor que
x
¯
=
P
=
P
C
(
y
¯
)
=
P
C
(
x
¯
−
α
∇
f
(
x
)
)
{\displaystyle {\bar {x}}=P=P_{C}({\bar {y}})=P_{C}({\bar {x}}-\alpha \nabla f(x))}
, conforme a argumentação anterior, equivale a dizer que
⟨
∇
f
(
x
)
,
x
−
x
¯
⟩
≥
0
,
∀
x
∈
C
{\displaystyle \langle \nabla f(x),x-{\bar {x}}\rangle \geq 0,\,\forall x\in C}
Usando a hipótese de que
f
{\displaystyle f}
é convexa, segue da proposição anterior que
x
¯
{\displaystyle {\bar {x}}}
é um minimizador global de
f
{\displaystyle f}
em
C
{\displaystyle C}
.
Para tratar este caso, é preciso utilizar o conceito de cone tangente. O conjunto contínua o mesmo, ou seja,
C
=
{
x
∈
R
n
;
g
i
(
x
)
≤
0
e
h
j
(
x
)
=
0
}
{\displaystyle C=\{x\in \mathbb {R} ^{n};g_{i}(x)\leq 0{\text{ e }}h_{j}(x)=0\}}
, embora não seja mais suposto que ele é convexo. Mesmo assim,
C
{\displaystyle C}
ainda será fechado, pois as funções
g
i
{\displaystyle g_{i}}
e
h
j
{\displaystyle h_{j}}
que o definem são contínuas.
Teorema
Se
x
¯
{\displaystyle {\bar {x}}}
é um minimizador local de
f
{\displaystyle f}
em
C
{\displaystyle C}
, então
⟨
∇
f
(
x
¯
)
,
d
⟩
≥
0
,
∀
d
∈
T
(
x
¯
,
C
)
{\displaystyle \langle \nabla f({\bar {x}}),d\rangle \geq 0,\,\forall d\in T({\bar {x}},C)}
.
Se
C
{\displaystyle C}
é convexo,
f
{\displaystyle f}
é convexa e
⟨
∇
f
(
x
¯
)
,
d
⟩
≥
0
,
∀
d
∈
T
(
x
¯
,
C
)
{\displaystyle \langle \nabla f({\bar {x}}),d\rangle \geq 0,\,\forall d\in T({\bar {x}},C)}
, então
x
¯
{\displaystyle {\bar {x}}}
é minimizador global de
f
{\displaystyle f}
em
C
{\displaystyle C}
.
Este teorema pode ser demonstrado de forma análoga a que foi feita anteriormente.
Demonstração
Esta demonstração é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo.
Seja
C
~
{\displaystyle {\tilde {C}}}
definido como:
C
~
=
C
~
a
=
{
x
∈
R
n
;
g
i
(
x
)
≤
0
,
∀
i
∈
I
(
a
)
;
h
j
(
x
)
=
0
}
{\displaystyle {\tilde {C}}={\tilde {C}}_{a}=\left\{x\in \mathbb {R} ^{n};g_{i}(x)\leq 0,\,\forall i\in I(a);\quad h_{j}(x)=0\right\}}
.
Pela segunda propriedade do cone tangente, tem-se:
T
(
a
,
V
∩
C
~
)
=
T
(
a
,
C
)
=
T
(
a
,
V
∩
C
~
)
{\displaystyle T(a,V\cap {\tilde {C}})=T(a,C)=T(a,V\cap {\tilde {C}})}
. Logo,
T
(
a
,
C
)
=
T
(
a
,
C
~
)
{\displaystyle T(a,C)=T(a,{\tilde {C}})}
Em outras palavras, se é dado um conjunto
C
~
{\displaystyle {\tilde {C}}}
e depois se restringe tal conjunto para
C
{\displaystyle C}
, através do acréscimo de restrições inativas em um ponto
a
{\displaystyle a}
, os cones tangentes aos dois conjuntos (no ponto
a
{\displaystyle a}
) coincidem.
Definição
Toda condição que implica que
T
(
a
,
C
)
=
L
(
a
,
C
)
{\displaystyle T(a,C)=L(a,C)}
é chamada de condição de qualificação das restrições .
Wikipedia
Observação: Também se pode dizer condições de regularidade das restrições (do inglês, Regularity conditions ).
(1) Se
g
i
{\displaystyle g_{i}}
e
h
i
{\displaystyle h_{i}}
são funções afim-lineares, então para qualquer
x
∈
C
{\displaystyle x\in C}
, tem-se
T
(
x
,
C
)
=
L
(
x
,
C
)
{\displaystyle T(x,C)=L(x,C)}
. Prova-se isso trivialmente
Prova
Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo.
(2) Condições de Slater: Se as funções
g
i
{\displaystyle g_{i}}
são convexas e as
h
i
{\displaystyle h_{i}}
são afim lineares e, além disso, existe
x
^
∈
C
{\displaystyle {\hat {x}}\in C}
tal que
g
i
(
x
^
)
<
0
{\displaystyle g_{i}({\hat {x}})<0}
para todo
i
{\displaystyle i}
,
h
j
(
x
^
)
=
0
{\displaystyle h_{j}({\hat {x}})=0}
, então para qualquer
x
∈
C
{\displaystyle x\in C}
, tem-se
T
(
x
,
C
)
=
L
(
x
,
C
)
{\displaystyle T(x,C)=L(x,C)}
.
Prova
Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo.
(3) Condições de Mangasarian-Fromowitz: Se
{
∇
h
j
(
x
)
}
{\displaystyle \{\nabla h_{j}(x)\}}
é linearmente independente e existe
d
~
{\displaystyle {\tilde {d}}}
tal que
⟨
∇
h
j
(
x
)
,
d
~
⟩
=
0
{\displaystyle \langle \nabla h_{j}(x),{\tilde {d}}\rangle =0}
para tpdp
j
{\displaystyle j}
e
⟨
∇
g
i
(
x
)
,
d
~
⟩
<
0
{\displaystyle \langle \nabla g_{i}(x),{\tilde {d}}\rangle <0}
.
Prova
Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo.
Teorema (Karush–Kuhn–Tucker)
Suponha que
f
{\displaystyle f}
,
g
i
{\displaystyle g_{i}}
e
h
j
{\displaystyle h_{j}}
são funções de classe
C
1
{\displaystyle {\mathcal {C}}^{1}}
em uma vizinhança do ponto
x
¯
{\displaystyle {\bar {x}}}
e que
T
(
x
¯
,
C
)
=
L
(
x
¯
,
C
)
{\displaystyle T({\bar {x}},C)=L({\bar {x}},C)}
. Se
x
¯
{\displaystyle {\bar {x}}}
é um minimizador local de
f
{\displaystyle f}
em
C
{\displaystyle C}
, então existem
u
∈
R
p
{\displaystyle u\in \mathbb {R} ^{p}}
e
v
∈
R
q
{\displaystyle v\in \mathbb {R} ^{q}}
tais que:
∇
f
(
x
¯
)
+
∑
i
=
1
p
u
i
∇
g
i
(
x
¯
)
+
∑
j
=
1
q
v
j
∇
h
j
(
x
¯
)
=
0
{\displaystyle \nabla f({\bar {x}})+\sum _{i=1}^{p}u_{i}\nabla g_{i}({\bar {x}})+\sum _{j=1}^{q}v_{j}\nabla h_{j}({\bar {x}})=0}
u
i
≥
0
,
∀
i
=
1
,
…
,
p
{\displaystyle u_{i}\geq 0,\,\forall i=1,\ldots ,p}
u
i
g
i
(
x
¯
)
=
0
,
∀
i
=
1
,
…
,
q
{\displaystyle u_{i}g_{i}({\bar {x}})=0,\,\forall i=1,\ldots ,q}
Wikipedia
Note que aqui aparece a lagrangiana, pois a primeira condição é equivalente a:
∇
x
l
(
x
,
u
,
v
)
=
0
{\displaystyle \nabla _{x}l(x,u,v)=0}
O essencial para a existência de
l
(
u
,
v
)
{\displaystyle l(u,v)}
é que
T
(
x
¯
,
C
)
=
L
(
x
¯
,
C
)
{\displaystyle T({\bar {x}},C)=L({\bar {x}},C)}
.
Teorema
Suponha-se que
f
{\displaystyle f}
,
g
i
{\displaystyle g_{i}}
e
h
j
{\displaystyle h_{j}}
são funções de classe
C
1
{\displaystyle {\mathcal {C}}^{1}}
em uma vizinhança de
x
¯
{\displaystyle {\bar {x}}}
, que
f
{\displaystyle f}
e
g
i
{\displaystyle g_{i}}
são convexas e que
h
j
{\displaystyle h_{j}}
são afim-lineares. são funções de classe
C
1
{\displaystyle {\mathcal {C}}^{1}}
. Se existem
u
∈
R
p
{\displaystyle u\in \mathbb {R} ^{p}}
e
v
∈
R
q
{\displaystyle v\in \mathbb {R} ^{q}}
tais que:
∇
f
(
x
¯
)
+
∑
i
=
1
p
u
i
∇
g
i
(
x
¯
)
+
∑
j
=
1
q
v
i
∇
h
j
(
x
¯
)
=
0
{\displaystyle \nabla f({\bar {x}})+\sum _{i=1}^{p}u_{i}\nabla g_{i}({\bar {x}})+\sum _{j=1}^{q}v_{i}\nabla h_{j}({\bar {x}})=0}
u
i
≥
0
,
∀
i
=
1
,
…
,
p
{\displaystyle u_{i}\geq 0,\,\forall i=1,\ldots ,p}
u
i
g
i
(
x
¯
)
=
0
,
∀
i
=
1
,
…
,
p
{\displaystyle u_{i}g_{i}({\bar {x}})=0,\,\forall i=1,\ldots ,p}
g
i
(
x
¯
)
≤
0
,
∀
i
=
1
,
…
,
p
{\displaystyle g_{i}({\bar {x}})\leq 0,\,\forall i=1,\ldots ,p}
h
j
(
x
¯
)
=
0
,
∀
j
=
1
,
…
,
q
{\displaystyle h_{j}({\bar {x}})=0,\,\forall j=1,\ldots ,q}
A partir deste teorema são construídos alguns algoritmos.
Este módulo tem a seguinte tarefa pendente: Confrontar as informações presentes nestes últimos teoremas com algum livro. Parece estar precisando de pequenas correções.
Considere o seguinte problema:
{
min
f
(
x
)
g
i
(
x
)
≤
0
;
i
=
1
,
…
,
p
h
j
(
x
)
=
0
;
j
=
1
,
…
,
q
{\displaystyle \left\{{\begin{matrix}\min f(x)\\g_{i}(x)\leq 0;i=1,\ldots ,p\\h_{j}(x)=0;j=1,\ldots ,q\end{matrix}}\right.}
Sabe-se que
l
:
R
n
×
R
p
×
R
q
↦
R
{\displaystyle l:\mathbb {R} ^{n}\times \mathbb {R} ^{p}\times \mathbb {R} ^{q}\mapsto \mathbb {R} }
dada por
l
(
x
,
u
,
v
)
=
f
(
x
)
+
∑
i
=
1
p
u
i
g
i
(
x
)
+
∑
j
=
1
q
v
j
h
j
(
x
)
{\displaystyle l(x,u,v)=f(x)+\sum _{i=1}^{p}u_{i}g_{i}(x)+\sum _{j=1}^{q}v_{j}h_{j}(x)}
.
Agora, tem-se as KKT:
Teorema
Supondo que
f
,
g
i
{\displaystyle f,g_{i}}
e
h
j
{\displaystyle h_{j}}
são de classe
C
1
{\displaystyle {\mathcal {C}}^{1}}
em uma vizinhança de
x
¯
∈
C
{\displaystyle {\bar {x}}\in C}
e que
T
(
x
¯
,
C
)
=
L
(
x
¯
,
C
)
{\displaystyle T({\bar {x}},C)=L({\bar {x}},C)}
, se
x
¯
{\displaystyle {\bar {x}}}
é um minimizador local de
f
{\displaystyle f}
em
C
{\displaystyle C}
, então
∃
u
¯
∈
R
p
{\displaystyle \exists {\bar {u}}\in \mathbb {R} ^{p}}
tal que
∃
v
¯
∈
R
q
{\displaystyle \exists {\bar {v}}\in \mathbb {R} ^{q}}
de modo que:
∇
x
l
(
x
¯
,
u
¯
,
v
¯
)
=
0
{\displaystyle \nabla _{x}l({\bar {x}},{\bar {u}},{\bar {v}})=0}
u
¯
≥
0
{\displaystyle {\bar {u}}\geq 0}
∇
u
l
(
x
¯
,
u
¯
,
v
¯
)
≤
0
{\displaystyle \nabla _{u}l({\bar {x}},{\bar {u}},{\bar {v}})\leq 0}
u
¯
⊤
∇
u
l
(
x
¯
,
u
¯
,
v
¯
)
=
0
{\displaystyle {\bar {u}}^{\top }\nabla _{u}l({\bar {x}},{\bar {u}},{\bar {v}})=0}
∇
v
l
(
x
¯
,
u
¯
,
v
¯
)
=
0
{\displaystyle \nabla _{v}l({\bar {x}},{\bar {u}},{\bar {v}})=0}
Demonstração
Sabe-se que
K
(
x
,
y
)
≤
sup
y
∈
Y
K
(
x
,
y
)
≤
+
∞
{\displaystyle K(x,y)\leq \sup _{y\in Y}K(x,y)\leq +\infty }
,
quaisquer que sejam
x
∈
X
,
y
∈
Y
{\displaystyle x\in X,y\in Y}
. Então, calculando o ínfimo em ambos os membros (com relação aos valores de
x
{\displaystyle x}
), e considerando que
K
(
x
,
y
)
{\displaystyle K(x,y)}
pode ser ilimitado inferiormente, tem-se para qualquer
y
∈
Y
{\displaystyle y\in Y}
:
−
∞
≤
inf
x
∈
X
K
(
x
,
y
)
≤
inf
x
∈
X
sup
y
∈
Y
K
(
x
,
y
)
≤
+
∞
{\displaystyle -\infty \leq \inf _{x\in X}K(x,y)\leq \inf _{x\in X}\sup _{y\in Y}K(x,y)\leq +\infty }
Assim, calculando o supremo (com relação aos valores de
y
{\displaystyle y}
), segue das desigualdades anteriores:
−
∞
≤
sup
y
∈
Y
inf
x
∈
X
K
(
x
,
y
)
≤
inf
x
∈
X
sup
y
∈
Y
K
(
x
,
y
)
≤
+
∞
{\displaystyle -\infty \leq \sup _{y\in Y}\inf _{x\in X}K(x,y)\leq \inf _{x\in X}\sup _{y\in Y}K(x,y)\leq +\infty }
Exercício
Verifique que:
−
∞
≤
sup
u
≥
0
v
∈
R
q
inf
x
∈
R
n
l
(
x
,
u
,
v
)
≤
inf
x
∈
R
n
sup
u
≥
0
v
∈
R
q
l
(
x
,
u
,
v
)
≤
+
∞
{\displaystyle -\infty \leq \sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}\inf _{x\in \mathbb {R} ^{n}}l(x,u,v)\leq \inf _{x\in \mathbb {R} ^{n}}\sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}l(x,u,v)\leq +\infty }
Demonstração
Esta demonstração é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo.
Defina-se a função:
α
:
R
n
↦
R
∪
{
+
∞
}
{\displaystyle \alpha :\mathbb {R} ^{n}\mapsto \mathbb {R} \cup \{+\infty \}}
, dada por
α
(
x
)
=
sup
u
≥
0
v
∈
R
q
l
(
x
,
u
,
v
)
{\displaystyle \alpha (x)=\sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}l(x,u,v)}
e também
β
:
[
0
,
+
∞
)
p
×
R
q
↦
R
∪
{
−
∞
}
{\displaystyle \beta :[0,+\infty )^{p}\times \mathbb {R} ^{q}\mapsto \mathbb {R} \cup \{-\infty \}}
, dada por
β
(
u
,
v
)
=
inf
x
∈
R
n
l
(
x
,
u
,
v
)
{\displaystyle \beta (u,v)=\inf _{x\in \mathbb {R} ^{n}}l(x,u,v)}
Conforme o exercício anterior, tem-se então
−
∞
≤
sup
u
≥
0
v
∈
R
q
β
(
u
,
v
)
≤
inf
x
∈
R
n
α
(
x
)
≤
+
∞
{\displaystyle -\infty \leq \sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}\beta (u,v)\leq \inf _{x\in \mathbb {R} ^{n}}\alpha (x)\leq +\infty }
Observando a relação entre essas funções, é natural considerar dois problemas de otimização:
(
P
r
)
{
min
α
(
x
)
x
∈
R
n
{\displaystyle (Pr)\left\{{\begin{matrix}\min \alpha (x)\\x\in \mathbb {R} ^{n}\end{matrix}}\right.}
e
(
D
)
{
max
β
(
u
,
v
)
u
≥
0
v
∈
R
q
{\displaystyle (D)\left\{{\begin{matrix}\max \beta (u,v)\\u\geq 0\\v\in \mathbb {R} ^{q}\end{matrix}}\right.}
Comentários
As funções
α
{\displaystyle \alpha }
e
β
{\displaystyle \beta }
são conhecidas na literatura como funções em dualidade (ou mais frequentemente, funções duais );
O problema
(
P
r
)
{\displaystyle (Pr)}
é conhecido como problema primal , enquanto
(
D
)
{\displaystyle (D)}
é chamado de problema dual ;
Fazendo
α
¯
=
inf
x
∈
R
n
α
(
x
)
{\displaystyle {\bar {\alpha }}=\inf _{x\in \mathbb {R} ^{n}}\alpha (x)}
e
β
¯
=
sup
u
≥
0
v
∈
R
q
β
(
u
,
v
)
{\displaystyle {\bar {\beta }}=\sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}\beta (u,v)}
, segue-se do exercício anterior que
β
¯
≤
α
¯
{\displaystyle {\bar {\beta }}\leq {\bar {\alpha }}}
;
A diferença
α
¯
−
β
¯
{\displaystyle {\bar {\alpha }}-{\bar {\beta }}}
é chamada de brecha de dualidade, ou salto de dualidade (do inglês, skip duality );
Exercício
Verifique que:
α
(
x
)
=
{
f
(
x
)
,
se
x
∈
C
+
∞
,
se
x
∉
C
{\displaystyle \alpha (x)=\left\{{\begin{matrix}f(x)&,{\text{ se }}x\in C\\+\infty &,{\text{ se }}x\not \in C\end{matrix}}\right.}
Resolução
Se
x
∈
C
{\displaystyle x\in C}
tem-se que
g
i
(
x
)
≤
0
;
i
=
1
,
…
,
p
{\displaystyle g_{i}(x)\leq 0;i=1,\ldots ,p}
e
h
j
(
x
)
=
0
;
j
=
1
,
…
,
q
{\displaystyle h_{j}(x)=0;j=1,\ldots ,q}
.
Substituindo na lagrangeana tem-se que
l
(
x
,
u
,
v
)
≤
f
(
x
)
{\displaystyle l(x,u,v)\leq f(x)}
e tomando
u
=
0
{\displaystyle u=0}
, se vê que o supremo dos valores
l
(
x
,
u
,
v
)
{\displaystyle l(x,u,v)}
é atingido, tendo
f
(
x
)
{\displaystyle f(x)}
como valor.
Por outro lado, se
x
∉
C
{\displaystyle x\notin C}
existe um índice
j
{\displaystyle j}
tal que
h
j
(
x
)
≠
0
{\displaystyle h_{j}(x)\neq 0}
e/ou
g
i
(
x
)
>
0
{\displaystyle g_{i}(x)>0}
.
No primeiro caso, seja
u
=
0
{\displaystyle u=0}
e
v
j
=
{
t
h
i
(
x
)
,
i
=
j
0
,
i
≠
j
{\displaystyle v_{j}={\begin{cases}th_{i}(x),&i=j\\0,&i\neq j\end{cases}}}
, onde
t
>
0
{\displaystyle t>0}
.
Com esta escolha, a lagrangiana será
l
(
x
,
u
,
v
)
=
f
(
x
)
+
t
(
h
j
(
x
)
)
2
{\displaystyle l(x,u,v)=f(x)+t(h_{j}(x))^{2}}
.
Tomando o limite quando
t
→
∞
{\displaystyle t\rightarrow \infty }
tem-se que
l
(
x
,
u
,
v
)
→
∞
{\displaystyle l(x,u,v)\rightarrow \infty }
.
Para o outro caso a prova é análoga.
Exercício
Verifique que
(
D
)
{\displaystyle (D)}
consiste de maximizar uma função côncava em um poliedro. Lembre-se:
Uma função
f
{\displaystyle f}
é côncava quando
−
f
{\displaystyle -f}
for convexa.
Um poliedro é qualquer intersecção finita de semiespaços fechados.
Resolução
Primeiro será mostrado que :
β
:
[
0
,
+
∞
)
p
×
R
q
↦
R
∪
{
−
∞
}
{\displaystyle \beta :[0,+\infty )^{p}\times \mathbb {R} ^{q}\mapsto \mathbb {R} \cup \{-\infty \}}
, dada por
β
(
u
,
v
)
=
inf
x
∈
R
n
l
(
x
,
u
,
v
)
{\displaystyle \beta (u,v)=\inf _{x\in \mathbb {R} ^{n}}l(x,u,v)}
é uma função côncava. Para isso, basta mostrar que para cada
t
∈
[
0
,
1
]
{\displaystyle t\in [0,1]}
vale
β
(
t
a
+
(
1
−
t
)
b
,
t
c
+
(
1
−
t
)
d
)
≥
t
β
(
a
,
c
)
+
(
1
−
t
)
β
(
b
,
d
)
{\displaystyle \beta (ta+(1-t)b,tc+(1-t)d)\geq t\beta (a,c)+(1-t)\beta (b,d)}
.
Chamando
u
¯
=
t
a
+
(
1
−
t
)
b
{\displaystyle {\bar {u}}=ta+(1-t)b}
e
v
¯
=
t
c
+
(
1
−
t
)
d
{\displaystyle {\bar {v}}=tc+(1-t)d}
tem-se:
β
(
u
¯
,
v
¯
)
=
inf
x
∈
R
n
l
(
x
,
t
a
+
(
1
−
t
)
b
,
t
c
+
(
1
−
t
)
d
)
=
inf
x
∈
R
n
f
(
x
)
+
(
t
a
+
(
1
−
t
)
b
)
⊤
g
(
x
)
+
(
t
c
+
(
1
−
t
)
d
)
⊤
h
(
x
)
=
inf
x
∈
R
n
f
(
x
)
+
t
a
⊤
g
(
x
)
+
(
1
−
t
)
b
⊤
g
(
x
)
+
t
c
⊤
h
(
x
)
+
(
1
−
t
)
d
⊤
h
(
x
)
=
inf
x
∈
R
n
t
f
(
x
)
+
(
1
−
t
)
f
(
x
)
+
t
a
⊤
g
(
x
)
+
(
1
−
t
)
b
⊤
g
(
x
)
+
t
c
⊤
h
(
x
)
+
(
1
−
t
)
d
⊤
h
(
x
)
=
inf
x
∈
R
n
t
[
f
(
x
)
+
a
⊤
g
(
x
)
+
c
⊤
h
(
x
)
]
+
(
1
−
t
)
[
f
(
x
)
+
b
⊤
g
(
x
)
+
d
⊤
h
(
x
)
]
=
inf
x
∈
R
n
t
l
(
x
,
a
,
c
)
+
(
1
−
t
)
l
(
x
,
b
,
d
)
≥
inf
x
∈
R
n
t
l
(
x
,
a
,
c
)
+
inf
x
∈
R
n
(
1
−
t
)
l
(
x
,
b
,
d
)
=
t
inf
x
∈
R
n
l
(
x
,
a
,
c
)
+
(
1
−
t
)
inf
x
∈
R
n
l
(
x
,
b
,
d
)
=
t
β
(
a
,
c
)
+
(
1
−
t
)
β
(
b
,
d
)
.
{\displaystyle {\begin{aligned}\beta ({\bar {u}},{\bar {v}})&=\inf _{x\in \mathbb {R} ^{n}}l(x,ta+(1-t)b,tc+(1-t)d)\\&=\inf _{x\in \mathbb {R} ^{n}}f(x)+(ta+(1-t)b)^{\top }g(x)+(tc+(1-t)d)^{\top }h(x)\\&=\inf _{x\in \mathbb {R} ^{n}}f(x)+ta^{\top }g(x)+(1-t)b^{\top }g(x)+tc^{\top }h(x)+(1-t)d^{\top }h(x)\\&=\inf _{x\in \mathbb {R} ^{n}}tf(x)+(1-t)f(x)+ta^{\top }g(x)+(1-t)b^{\top }g(x)+tc^{\top }h(x)+(1-t)d^{\top }h(x)\\&=\inf _{x\in \mathbb {R} ^{n}}t[f(x)+a^{\top }g(x)+c^{\top }h(x)]+(1-t)[f(x)+b^{\top }g(x)+d^{\top }h(x)]\\&=\inf _{x\in \mathbb {R} ^{n}}tl(x,a,c)+(1-t)l(x,b,d)\\&\geq \inf _{x\in \mathbb {R} ^{n}}tl(x,a,c)+\inf _{x\in \mathbb {R} ^{n}}(1-t)l(x,b,d)\\&=t\inf _{x\in \mathbb {R} ^{n}}l(x,a,c)+(1-t)\inf _{x\in \mathbb {R} ^{n}}l(x,b,d)\\&=t\beta (a,c)+(1-t)\beta (b,d).\end{aligned}}}
Quanto ao conjunto ser um poliedro, isso segue do fato de
R
q
{\displaystyle \mathbb {R} ^{q}}
e
u
≥
0
{\displaystyle u\geq 0}
serem interseções finitas de semiespaços fechados.
Considere o problema
(
P
)
{
min
x
2
1
≤
x
≤
2
{\displaystyle (P)\left\{{\begin{matrix}\min x^{2}\\1\leq x\leq 2\end{matrix}}\right.}
Resolução
O problema é ilustrado na imagem a direita.
Primeiramente, é preciso identificar quais são as funções
f
,
g
i
{\displaystyle f,g_{i}}
e
h
j
{\displaystyle h_{j}}
envolvidas:
A função objetivo é aquela que se pretende minimizar, ou seja,
f
:
R
↦
R
;
f
(
x
)
=
x
2
{\displaystyle f:\mathbb {R} \mapsto \mathbb {R} ;f(x)=x^{2}}
;
Como aparecem apenas restrições de desigualdade, não há qualquer função
h
j
{\displaystyle h_{j}}
;
Reescrevendo as desigualdades como
1
−
x
≤
0
{\displaystyle 1-x\leq 0}
e
x
−
2
≤
0
{\displaystyle x-2\leq 0}
, conclúi-se que as funções
g
i
{\displaystyle g_{i}}
são:
g
1
:
R
↦
R
;
g
1
(
x
)
=
1
−
x
{\displaystyle g_{1}:\mathbb {R} \mapsto \mathbb {R} ;g_{1}(x)=1-x}
e
g
2
:
R
↦
R
;
g
2
(
x
)
=
x
−
2
{\displaystyle g_{2}:\mathbb {R} \mapsto \mathbb {R} ;g_{2}(x)=x-2}
.
Neste caso, a lagrangiana é:
l
:
R
×
R
2
↦
R
{\displaystyle l:\mathbb {R} \times \mathbb {R} ^{2}\mapsto \mathbb {R} }
, dado por
l
(
x
,
u
1
,
u
2
)
=
x
2
+
u
1
(
1
−
x
)
+
u
2
(
x
−
2
)
{\displaystyle l(x,u_{1},u_{2})=x^{2}+u_{1}(1-x)+u_{2}(x-2)}
Em seguida, é preciso calcular
α
{\displaystyle \alpha }
e
β
{\displaystyle \beta }
:
α
:
R
n
↦
R
∪
{
+
∞
}
{\displaystyle \alpha :\mathbb {R} ^{n}\mapsto \mathbb {R} \cup \{+\infty \}}
, é dada por
α
(
x
)
=
sup
u
1
≥
0
u
2
≥
0
[
x
2
+
u
1
(
1
−
x
)
+
u
2
(
x
−
2
)
]
=
x
2
+
sup
u
1
≥
0
[
u
1
(
1
−
x
)
]
+
sup
u
2
≥
0
[
u
2
(
x
−
2
)
]
{\displaystyle \alpha (x)=\sup _{\begin{smallmatrix}u_{1}\geq 0\\u_{2}\geq 0\end{smallmatrix}}[x^{2}+u_{1}(1-x)+u_{2}(x-2)]=x^{2}+\sup _{u_{1}\geq 0}[u_{1}(1-x)]+\sup _{u_{2}\geq 0}[u_{2}(x-2)]}
E, conforme um dos exercícios anteriores (ou através de uma breve análise dos supremos envolvidos na expressão anterior), tem-se:
α
(
x
)
=
{
x
2
,
se
x
∈
[
1
,
2
]
+
∞
,
se
x
∉
[
1
,
2
]
{\displaystyle \alpha (x)=\left\{{\begin{matrix}x^{2}&,{\text{ se }}x\in [1,2]\\+\infty &,{\text{ se }}x\not \in [1,2]\end{matrix}}\right.}
Analogamente, tem-se:
β
:
R
2
↦
R
∪
{
−
∞
}
{\displaystyle \beta :\mathbb {R} ^{2}\mapsto \mathbb {R} \cup \{-\infty \}}
, dada por
β
(
u
1
,
u
2
)
=
inf
x
∈
R
n
[
x
2
+
u
1
(
1
−
x
)
+
u
2
(
x
−
2
)
]
{\displaystyle \beta (u_{1},u_{2})=\inf _{x\in \mathbb {R} ^{n}}[x^{2}+u_{1}(1-x)+u_{2}(x-2)]}
Observe que em relação a
x
{\displaystyle x}
, tem-se uma função fortemente convexa, que portanto possui um único minimizador. Além disso,
l
{\displaystyle l}
é diferenciável, donde o seu único minimizador
x
0
{\displaystyle x_{0}}
é dado pela equação:
∇
x
l
(
x
0
,
u
1
,
u
2
)
=
0
{\displaystyle \nabla _{x}l(x_{0},u_{1},u_{2})=0}
ou seja,
2
x
0
+
u
1
−
u
2
=
0
{\displaystyle 2x_{0}+u_{1}-u_{2}=0}
donde
x
0
=
u
2
−
u
1
2
{\displaystyle x_{0}={\frac {u_{2}-u_{1}}{2}}}
Portanto,
β
(
u
1
,
u
2
)
=
(
u
1
−
u
2
2
)
2
+
u
1
(
1
−
u
1
−
u
2
2
)
+
u
2
(
u
1
−
u
2
2
−
2
)
{\displaystyle \beta (u_{1},u_{2})=\left({\frac {u_{1}-u_{2}}{2}}\right)^{2}+u_{1}\left(1-{\frac {u_{1}-u_{2}}{2}}\right)+u_{2}\left({\frac {u_{1}-u_{2}}{2}}-2\right)}
Assim, os problemas em dualidade são:
(
P
r
)
{
min
α
(
x
)
x
∈
R
n
{\displaystyle (Pr)\left\{{\begin{matrix}\min \alpha (x)\\x\in \mathbb {R} ^{n}\end{matrix}}\right.}
e
(
D
)
{
max
β
(
u
1
,
u
2
)
u
1
,
u
2
≥
0
{\displaystyle (D)\left\{{\begin{matrix}\max \beta (u_{1},u_{2})\\u_{1},u_{2}\geq 0\end{matrix}}\right.}
Pelo primeiro item do exercício, tem-se que a minimização do problema
(
P
r
)
{\displaystyle (Pr)}
é equivalente à minimização do problema original.
Por outro lado, através da lagrangiana, obtem-se além do problema primal
(
P
r
)
{\displaystyle (Pr)}
, um problema dual
(
D
)
{\displaystyle (D)}
, cuja estrutura é muito melhor que a do original (pois pelo outro exercício, consiste da maximização de uma função côncava
β
{\displaystyle \beta }
em um poliedro), e que servirá para encontrar o mínimo do problema primal (e consequentemente, do original).
Este é um conceito muito importante relacionado à lagrangiana.
Definição
Dado o problema
(
P
)
{\displaystyle (P)}
e a lagrangiana
l
{\displaystyle l}
associada a esse problema, se diz que
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle ({\bar {x}},{\bar {u}},{\bar {v}})}
é um ponto de sela de
l
{\displaystyle l}
se
u
¯
≥
0
{\displaystyle {\bar {u}}\geq 0}
e:
l
(
x
¯
,
u
,
v
)
≤
l
(
x
¯
,
u
¯
,
v
¯
)
≤
l
(
x
,
u
¯
,
v
¯
)
,
∀
x
∈
R
n
,
∀
u
≥
0
,
∀
v
∈
R
q
{\displaystyle l({\bar {x}},u,v)\leq l({\bar {x}},{\bar {u}},{\bar {v}})\leq l(x,{\bar {u}},{\bar {v}}),\forall x\in \mathbb {R} ^{n},\forall u\geq 0,\forall v\in \mathbb {R} ^{q}}
.
Demonstração
Se
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle ({\bar {x}},{\bar {u}},{\bar {v}})}
é um ponto de sela de
l
{\displaystyle l}
, então
u
¯
≥
0
{\displaystyle {\bar {u}}\geq 0}
e se tem:
l
(
x
¯
,
u
,
v
)
≤
l
(
x
¯
,
u
¯
,
v
¯
)
≤
l
(
x
,
u
¯
,
v
¯
)
,
∀
x
∈
R
n
,
∀
u
≥
0
,
∀
v
∈
R
q
{\displaystyle l({\bar {x}},u,v)\leq l({\bar {x}},{\bar {u}},{\bar {v}})\leq l(x,{\bar {u}},{\bar {v}}),\forall x\in \mathbb {R} ^{n},\forall u\geq 0,\forall v\in \mathbb {R} ^{q}}
.
Em particular, como
α
(
x
¯
)
=
sup
u
≥
0
v
∈
R
q
l
(
x
¯
,
u
,
v
)
≤
l
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle \alpha ({\bar {x}})=\sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}l({\bar {x}},u,v)\leq l({\bar {x}},{\bar {u}},{\bar {v}})}
.
segue da segunda desigualdade que
α
¯
≤
α
(
x
¯
)
≤
l
(
x
¯
,
u
¯
,
v
¯
)
≤
l
(
x
,
u
¯
,
v
¯
)
,
∀
x
∈
R
n
{\displaystyle {\bar {\alpha }}\leq \alpha ({\bar {x}})\leq l({\bar {x}},{\bar {u}},{\bar {v}})\leq l(x,{\bar {u}},{\bar {v}}),\forall x\in \mathbb {R} ^{n}}
e calculando o ínfimo sobre todos os
x
∈
R
{\displaystyle x\in \mathbb {R} }
tem-se:
α
¯
≤
α
(
x
¯
)
≤
l
(
x
¯
,
u
¯
,
v
¯
)
≤
inf
x
∈
R
n
l
(
x
,
u
¯
,
v
¯
)
=
β
(
u
¯
,
v
¯
)
≤
β
¯
{\displaystyle {\bar {\alpha }}\leq \alpha ({\bar {x}})\leq l({\bar {x}},{\bar {u}},{\bar {v}})\leq \inf _{x\in \mathbb {R} ^{n}}l(x,{\bar {u}},{\bar {v}})=\beta ({\bar {u}},{\bar {v}})\leq {\bar {\beta }}}
Por outro lado, da inequação sobre ínfimos e supremos, tem-se
α
¯
≥
β
¯
{\displaystyle {\bar {\alpha }}\geq {\bar {\beta }}}
, então
α
¯
=
β
¯
{\displaystyle {\bar {\alpha }}={\bar {\beta }}}
.
Logo, todos os membros das desigualdades acima coincidem, ou seja,
α
¯
(
x
¯
)
=
l
(
x
¯
,
u
¯
,
v
¯
)
=
β
(
u
¯
,
v
¯
)
=
β
¯
{\displaystyle {\bar {\alpha }}({\bar {x}})=l({\bar {x}},{\bar {u}},{\bar {v}})=\beta ({\bar {u}},{\bar {v}})={\bar {\beta }}}
Mas da definição de
β
¯
{\displaystyle {\bar {\beta }}}
tem-se:
β
¯
=
sup
u
≥
0
v
∈
R
q
β
(
u
,
v
)
{\displaystyle {\bar {\beta }}=\sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}\beta (u,v)}
.
Portanto,
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
é solução do problema
(
D
)
{\displaystyle (D)}
enquanto
α
¯
=
inf
x
∈
R
n
α
(
x
)
{\displaystyle {\bar {\alpha }}=\inf _{x\in \mathbb {R} ^{n}}\alpha (x)}
significa que
x
¯
{\displaystyle {\bar {x}}}
é solução de
(
P
r
)
{\displaystyle (Pr)}
Reciprocamente, supondo que
x
¯
{\displaystyle {\bar {x}}}
é solução do problema
(
P
r
)
{\displaystyle (Pr)}
, tem-se:
α
(
x
¯
)
=
inf
x
∈
R
n
α
(
x
)
{\displaystyle \alpha ({\bar {x}})=\inf _{x\in \mathbb {R} ^{n}}\alpha (x)}
e admitindo que
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
é solução do problema
(
D
)
{\displaystyle (D)}
, segue:
β
(
u
¯
,
v
¯
)
=
sup
u
≥
0
v
∈
R
q
β
(
u
,
v
)
{\displaystyle \beta ({\bar {u}},{\bar {v}})=\sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}\beta (u,v)}
Além disso, usando como hipótese que
α
¯
=
β
¯
{\displaystyle {\bar {\alpha }}={\bar {\beta }}}
, segue da definição que:
l
(
x
¯
,
u
,
v
)
≤
α
(
x
¯
)
=
α
¯
=
β
¯
=
β
(
u
¯
,
v
¯
)
≤
l
(
x
,
u
¯
,
v
¯
)
{\displaystyle l({\bar {x}},u,v)\leq \alpha ({\bar {x}})={\bar {\alpha }}={\bar {\beta }}=\beta ({\bar {u}},{\bar {v}})\leq l(x,{\bar {u}},{\bar {v}})}
, quaisquer que sejam
x
∈
R
n
,
u
≥
0
,
v
∈
R
q
{\displaystyle x\in \mathbb {R} ^{n},u\geq 0,v\in \mathbb {R} ^{q}}
.
Em particular, tomando
u
=
u
¯
{\displaystyle u={\bar {u}}}
,
v
=
v
¯
{\displaystyle v={\bar {v}}}
e
x
=
x
¯
{\displaystyle x={\bar {x}}}
, resulta:
l
(
x
¯
,
u
¯
,
v
¯
)
≤
α
¯
=
β
¯
≤
l
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle l({\bar {x}},{\bar {u}},{\bar {v}})\leq {\bar {\alpha }}={\bar {\beta }}\leq l({\bar {x}},{\bar {u}},{\bar {v}})}
, ou seja,
l
(
x
¯
,
u
¯
,
v
¯
)
=
α
¯
=
β
¯
{\displaystyle l({\bar {x}},{\bar {u}},{\bar {v}})={\bar {\alpha }}={\bar {\beta }}}
Logo, pela definição de
α
,
β
{\displaystyle \alpha ,\beta }
tem-se:
l
(
x
¯
,
u
,
v
)
≤
α
(
x
¯
)
=
l
(
x
¯
,
u
¯
,
v
¯
)
=
β
(
x
¯
)
=
l
(
x
,
u
¯
,
v
¯
)
{\displaystyle l({\bar {x}},u,v)\leq \alpha ({\bar {x}})=l({\bar {x}},{\bar {u}},{\bar {v}})=\beta ({\bar {x}})=l(x,{\bar {u}},{\bar {v}})}
, quaisquer que sejam
x
∈
R
n
,
u
≥
0
,
v
∈
R
q
{\displaystyle x\in \mathbb {R} ^{n},u\geq 0,v\in \mathbb {R} ^{q}}
.
Portanto,
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle ({\bar {x}},{\bar {u}},{\bar {v}})}
é um ponto de sela da lagrangiana
l
{\displaystyle l}
.
Wikipedia
Considere novamente o problema de otimização dado por:
{
min
x
2
1
≤
x
≤
2
{\displaystyle \left\{{\begin{matrix}\min x^{2}\\1\leq x\leq 2\end{matrix}}\right.}
Verificar se a lagrangiana associada à
(
P
)
{\displaystyle (P)}
tem ponto de sela.
Resolução
O problema é ilustrado na imagem a direita, e conforme foi deduzido anteriormente, tem-se:
f
:
R
↦
R
;
f
(
x
)
=
x
2
{\displaystyle f:\mathbb {R} \mapsto \mathbb {R} ;f(x)=x^{2}}
g
1
:
R
↦
R
;
g
1
(
x
)
=
1
−
x
{\displaystyle g_{1}:\mathbb {R} \mapsto \mathbb {R} ;g_{1}(x)=1-x}
g
2
:
R
↦
R
;
g
2
(
x
)
=
x
−
2
{\displaystyle g_{2}:\mathbb {R} \mapsto \mathbb {R} ;g_{2}(x)=x-2}
l
:
R
×
R
2
↦
R
;
l
(
x
,
u
1
,
u
2
)
=
x
2
+
u
1
(
1
−
x
)
+
u
2
(
x
−
2
)
{\displaystyle l:\mathbb {R} \times \mathbb {R} ^{2}\mapsto \mathbb {R} ;l(x,u_{1},u_{2})=x^{2}+u_{1}(1-x)+u_{2}(x-2)}
Além disso, como foi mostrado anteriormente, vale
α
(
x
)
=
{
x
2
,
se
x
∈
[
1
,
2
]
+
∞
,
se
x
∉
[
1
,
2
]
{\displaystyle \alpha (x)=\left\{{\begin{matrix}x^{2}&,{\text{ se }}x\in [1,2]\\+\infty &,{\text{ se }}x\not \in [1,2]\end{matrix}}\right.}
e também
β
(
u
,
v
)
=
(
u
1
−
u
2
2
)
2
+
u
1
(
1
−
u
1
−
u
2
2
)
+
u
2
(
u
1
−
u
2
2
−
2
)
{\displaystyle \beta (u,v)=\left({\frac {u_{1}-u_{2}}{2}}\right)^{2}+u_{1}\left(1-{\frac {u_{1}-u_{2}}{2}}\right)+u_{2}\left({\frac {u_{1}-u_{2}}{2}}-2\right)}
ou seja,
β
(
u
,
v
)
=
1
4
(
[
u
1
2
+
u
2
2
−
2
u
1
u
2
]
+
[
4
u
1
−
2
u
1
2
+
2
u
1
u
2
]
+
[
2
u
1
u
2
−
2
u
2
2
−
8
u
2
]
)
=
−
1
4
(
u
1
2
+
u
2
2
−
2
u
1
u
2
−
4
u
1
+
8
u
2
)
=
−
1
4
(
(
u
1
−
u
2
)
2
−
4
(
u
1
−
u
2
)
)
−
u
2
=
−
1
4
(
(
u
1
−
u
2
)
2
−
4
(
u
1
−
u
2
)
+
4
)
+
1
−
u
2
=
−
1
4
(
u
1
−
u
2
−
2
)
2
+
1
−
u
2
{\displaystyle {\begin{aligned}\beta (u,v)&={\frac {1}{4}}([u_{1}^{2}+u_{2}^{2}-2u_{1}u_{2}]+[4u_{1}-2u_{1}^{2}+2u_{1}u_{2}]+[2u_{1}u_{2}-2u_{2}^{2}-8u_{2}])\\&={\frac {-1}{4}}(u_{1}^{2}+u_{2}^{2}-2u_{1}u_{2}-4u_{1}+8u_{2})\\&={\frac {-1}{4}}((u_{1}-u_{2})^{2}-4(u_{1}-u_{2}))-u_{2}\\&={\frac {-1}{4}}((u_{1}-u_{2})^{2}-4(u_{1}-u_{2})+4)+1-u_{2}\\&={\frac {-1}{4}}(u_{1}-u_{2}-2)^{2}+1-u_{2}\end{aligned}}}
Agora, consideram-se os seguintes problemas em dualidade:
(
P
r
)
{
min
α
(
x
)
x
∈
R
n
{\displaystyle (Pr)\left\{{\begin{matrix}\min \alpha (x)\\x\in \mathbb {R} ^{n}\end{matrix}}\right.}
e
(
D
)
{
max
β
(
u
1
,
u
2
)
u
1
,
u
2
≥
0
{\displaystyle (D)\left\{{\begin{matrix}\max \beta (u_{1},u_{2})\\u_{1},u_{2}\geq 0\end{matrix}}\right.}
Donde
x
¯
=
1
{\displaystyle {\bar {x}}=1}
é solução do problema primal, e
α
(
x
¯
)
=
1
{\displaystyle \alpha ({\bar {x}})=1}
.
Intuitivamente, nos pontos em que
β
(
u
1
,
u
2
)
=
−
1
4
(
u
1
−
u
2
−
2
)
2
+
1
−
u
2
{\displaystyle \beta (u_{1},u_{2})={\frac {-1}{4}}(u_{1}-u_{2}-2)^{2}+1-u_{2}}
assumir seu valor máximo, deve-se ter
u
2
=
0
{\displaystyle u_{2}=0}
, pois conforme
u
2
{\displaystyle u_{2}}
aumenta,
β
(
u
1
,
u
2
)
{\displaystyle \beta (u_{1},u_{2})}
decresce.
Mas pela desigualdade a respeito de supremos e ínfimos, tem-se
β
(
u
1
,
u
2
)
≤
α
(
x
¯
)
=
1
{\displaystyle \beta (u_{1},u_{2})\leq \alpha ({\bar {x}})=1}
, quaisquer que sejam
u
1
≥
0
{\displaystyle u_{1}\geq 0}
,
u
2
≥
0
{\displaystyle u_{2}\geq 0}
.
Como
β
(
u
1
,
u
2
)
≤
1
{\displaystyle \beta (u_{1},u_{2})\leq 1}
, e ao tomar
u
1
=
2
{\displaystyle u_{1}=2}
e
u
2
=
0
{\displaystyle u_{2}=0}
tem-se
β
(
2
,
0
)
=
1
{\displaystyle \beta (2,0)=1}
, segue-se que
(
u
1
¯
,
u
2
¯
)
=
(
2
,
0
)
{\displaystyle ({\bar {u_{1}}},{\bar {u_{2}}})=(2,0)}
é uma solução do problema dual
(
D
)
{\displaystyle (D)}
.
Finalmente, como
α
¯
=
α
(
x
¯
)
=
1
{\displaystyle {\bar {\alpha }}=\alpha ({\bar {x}})=1}
, e
β
¯
=
β
(
u
1
¯
,
u
2
¯
)
=
1
{\displaystyle {\bar {\beta }}=\beta ({\bar {u_{1}}},{\bar {u_{2}}})=1}
, segue que
α
¯
=
β
¯
{\displaystyle {\bar {\alpha }}={\bar {\beta }}}
. Portanto, pelo teorema anterior, o ponto
(
x
¯
,
u
1
¯
,
u
2
¯
)
{\displaystyle ({\bar {x}},{\bar {u_{1}}},{\bar {u_{2}}})}
é ponto de sela da lagrangiana
l
{\displaystyle l}
.
Considerando
(
P
)
{\displaystyle (P)}
,
(
P
r
)
{\displaystyle (Pr)}
,
(
D
)
{\displaystyle (D)}
e
l
{\displaystyle l}
, se
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
é uma solução do problema dual, considere o seguinte problema:
(
P
u
¯
,
v
¯
)
{
min
l
(
x
,
u
¯
,
v
¯
)
x
∈
R
{\displaystyle (P_{{\bar {u}},{\bar {v}}})\left\{{\begin{matrix}\min l(x,{\bar {u}},{\bar {v}})\\x\in \mathbb {R} \end{matrix}}\right.}
que no caso do exemplo reduz-se a
(
P
u
¯
,
v
¯
)
{
min
x
2
+
2
(
1
−
x
)
x
∈
R
{\displaystyle (P_{{\bar {u}},{\bar {v}}})\left\{{\begin{matrix}\min x^{2}+2(1-x)\\x\in \mathbb {R} \end{matrix}}\right.}
A solução deste problema é obtida resolvendo
2
x
−
2
=
0
{\displaystyle 2x-2=0}
, sendo portanto
x
=
1
{\displaystyle x=1}
. Note que esta é a solução do problema primal
(
P
r
)
{\displaystyle (Pr)}
(e consequentemente do problema original
(
P
)
{\displaystyle (P)}
).
Será apenas uma coincidência? Ou ainda, em que situações a solução deste último problema será também solução do problema original?
A resposta será dada pelo próximo teorema. Acompanhe.
Teorema (dualidade lagrangiana convexa)
Suponha-se que
f
,
g
i
:
R
n
↦
R
{\displaystyle f,g_{i}:\mathbb {R} ^{n}\mapsto \mathbb {R} }
são de classe
C
1
{\displaystyle {\mathcal {C}}^{1}}
e convexas, e que as funções
h
j
{\displaystyle h_{j}}
são afim lineares e
T
(
x
,
C
)
=
L
(
x
,
C
)
,
∀
x
∈
C
{\displaystyle T(x,C)=L(x,C),\forall x\in C}
. Nestas condições:
Se o problema
(
P
)
{\displaystyle (P)}
tem solução, então
α
¯
=
β
¯
{\displaystyle {\bar {\alpha }}={\bar {\beta }}}
e os problemas
(
P
r
)
{\displaystyle (Pr)}
e
(
D
)
{\displaystyle (D)}
têm solução.
Se
(
P
)
{\displaystyle (P)}
tem solução, e
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
é solução de
(
D
)
{\displaystyle (D)}
, então as soluções de
(
P
r
)
{\displaystyle (Pr)}
são as soluções de
(
P
u
¯
,
v
¯
)
{\displaystyle (P_{{\bar {u}},{\bar {v}}})}
, onde
(
P
u
¯
,
v
¯
)
{
min
l
(
x
,
u
¯
,
v
¯
)
x
∈
R
{\displaystyle (P_{{\bar {u}},{\bar {v}}})\left\{{\begin{matrix}\min l(x,{\bar {u}},{\bar {v}})\\x\in \mathbb {R} \end{matrix}}\right.}
que também são as soluções de
(
P
)
{\displaystyle (P)}
.
Antes da demonstração, vale a pena imaginar a seguinte aplicação da segunda parte do teorema: Se por alguma razão não se sabe resolver o problema original
(
P
)
{\displaystyle (P)}
, pode-se optar por resolver
(
D
)
{\displaystyle (D)}
(um problema concavo em um poliedro), e depois resolver
(
P
u
¯
,
v
¯
)
{\displaystyle (P_{{\bar {u}},{\bar {v}}})}
(que é um problema convexo sem restrições). Em outras palavras, é possível trocar um problema difícil por dois problemas mais fáceis,
(
D
)
{\displaystyle (D)}
e
(
P
u
¯
,
v
¯
)
{\displaystyle (P_{{\bar {u}},{\bar {v}}})}
.
Agora a demonstração do teorema:
Demonstração
(1) Como
(
P
)
{\displaystyle (P)}
tem solução, seja
x
¯
{\displaystyle {\bar {x}}}
uma solução de
(
P
)
{\displaystyle (P)}
. Pelo teorema de KKT (que se aplica pois as funções são de classe
C
1
{\displaystyle {\mathcal {C}}^{1}}
e se tem a qualificação das restrições), segue a existência de
u
¯
∈
R
p
{\displaystyle {\bar {u}}\in \mathbb {R} ^{p}}
e
v
¯
∈
R
q
{\displaystyle {\bar {v}}\in \mathbb {R} ^{q}}
, tais que:
∇
x
l
(
x
¯
,
u
¯
,
v
¯
)
=
0
{\displaystyle \nabla _{x}l({\bar {x}},{\bar {u}},{\bar {v}})=0}
u
¯
≥
0
{\displaystyle {\bar {u}}\geq 0}
∇
u
l
(
x
¯
,
u
¯
,
v
¯
)
≤
0
{\displaystyle \nabla _{u}l({\bar {x}},{\bar {u}},{\bar {v}})\leq 0}
u
¯
⊤
∇
u
l
(
x
¯
,
u
¯
,
v
¯
)
=
0
{\displaystyle {\bar {u}}^{\top }\nabla _{u}l({\bar {x}},{\bar {u}},{\bar {v}})=0}
∇
v
l
(
x
¯
,
u
¯
,
v
¯
)
=
0
{\displaystyle \nabla _{v}l({\bar {x}},{\bar {u}},{\bar {v}})=0}
Como
f
,
g
i
{\displaystyle f,g_{i}}
são funções convexas e
h
j
{\displaystyle h_{j}}
afim lineares, então a função lagrangiana
l
(
x
,
u
¯
,
v
¯
)
{\displaystyle l(x,{\bar {u}},{\bar {v}})}
é convexa em
x
{\displaystyle x}
(pela forma de
l
{\displaystyle l}
). Isto significa que:
l
(
x
,
u
¯
,
v
¯
)
≥
l
(
x
¯
,
u
¯
,
v
¯
)
+
<
∇
x
l
(
x
¯
,
u
¯
,
v
¯
)
,
x
−
x
¯
>
,
∀
x
∈
R
n
{\displaystyle l(x,{\bar {u}},{\bar {v}})\geq l({\bar {x}},{\bar {u}},{\bar {v}})+<\nabla _{x}l({\bar {x}},{\bar {u}},{\bar {v}}),x-{\bar {x}}>,\forall x\in \mathbb {R} ^{n}}
.
Usando (1), conclúi-se uma das duas desigualdades que definem um ponto de sela em
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle ({\bar {x}},{\bar {u}},{\bar {v}})}
:
l
(
x
,
u
¯
,
v
¯
)
≥
l
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle l(x,{\bar {u}},{\bar {v}})\geq l({\bar {x}},{\bar {u}},{\bar {v}})}
.
Considerando que
x
¯
{\displaystyle {\bar {x}}}
é solução de
(
P
)
{\displaystyle (P)}
, tal ponto satisfaz as restrições
g
i
(
x
)
≤
0
;
i
=
1
,
…
,
p
{\displaystyle g_{i}(x)\leq 0;i=1,\ldots ,p}
e
h
j
(
x
)
=
0
;
j
=
1
,
…
,
q
{\displaystyle h_{j}(x)=0;j=1,\ldots ,q}
. Então, usando
l
(
x
¯
,
u
,
v
)
=
f
(
x
¯
)
+
∑
i
=
1
p
u
i
g
i
(
x
¯
)
+
∑
j
=
1
q
v
j
h
j
(
x
¯
)
{\displaystyle l({\bar {x}},u,v)=f({\bar {x}})+\sum _{i=1}^{p}u_{i}g_{i}({\bar {x}})+\sum _{j=1}^{q}v_{j}h_{j}({\bar {x}})}
, segue que:
l
(
x
¯
,
u
,
v
)
≤
f
(
x
¯
)
{\displaystyle l({\bar {x}},u,v)\leq f({\bar {x}})}
pois
h
j
(
x
¯
)
=
0
{\displaystyle h_{j}({\bar {x}})=0}
e
u
i
≥
0
{\displaystyle u_{i}\geq 0}
.
Mas, por KKT,
0
=
u
¯
⊤
∇
u
l
(
x
¯
,
u
¯
,
v
¯
)
=
∑
i
=
1
p
u
¯
i
g
i
(
x
¯
)
{\displaystyle 0={\bar {u}}^{\top }\nabla _{u}l({\bar {x}},{\bar {u}},{\bar {v}})=\sum _{i=1}^{p}{\bar {u}}_{i}g_{i}({\bar {x}})}
. Além disso,
∑
j
=
1
q
v
¯
j
h
j
(
x
¯
)
=
0
{\displaystyle \sum _{j=1}^{q}{\bar {v}}_{j}h_{j}({\bar {x}})=0}
.
Logo:
l
(
x
¯
,
u
¯
,
v
¯
)
=
f
(
x
¯
)
+
∑
i
=
1
p
u
¯
i
g
i
(
x
¯
)
+
∑
j
=
1
q
v
¯
j
h
j
(
x
¯
)
=
f
(
x
¯
)
{\displaystyle l({\bar {x}},{\bar {u}},{\bar {v}})=f({\bar {x}})+\sum _{i=1}^{p}{\bar {u}}_{i}g_{i}({\bar {x}})+\sum _{j=1}^{q}{\bar {v}}_{j}h_{j}({\bar {x}})=f({\bar {x}})}
Assim,
l
(
x
,
u
¯
,
v
¯
)
≥
l
(
x
¯
,
u
¯
,
v
¯
)
≥
l
(
x
¯
,
u
,
v
)
{\displaystyle l(x,{\bar {u}},{\bar {v}})\geq l({\bar {x}},{\bar {u}},{\bar {v}})\geq l({\bar {x}},u,v)}
quaisquer que sejam
x
∈
R
n
{\displaystyle x\in \mathbb {R} ^{n}}
,
u
≥
0
{\displaystyle u\geq 0}
e
v
∈
R
q
{\displaystyle v\in \mathbb {R} ^{q}}
. Mas isso implica, por definição, que
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle ({\bar {x}},{\bar {u}},{\bar {v}})}
é um ponto de sela de
l
{\displaystyle l}
.
Logo,
α
¯
=
β
¯
{\displaystyle {\bar {\alpha }}={\bar {\beta }}}
,
x
¯
{\displaystyle {\bar {x}}}
é solução do problema primal
(
P
r
)
{\displaystyle (Pr)}
e
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
é solução do problema dual
(
D
)
{\displaystyle (D)}
(2)Seja
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
solução de
(
D
)
{\displaystyle (D)}
(que existe, pelo item 1). Sabe-se pelo item anterior que o problema primal
(
P
r
)
{\displaystyle (Pr)}
tem solução e que
α
¯
=
β
¯
{\displaystyle {\bar {\alpha }}={\bar {\beta }}}
.
Seja
x
¯
{\displaystyle {\bar {x}}}
solução de
(
P
r
)
{\displaystyle (Pr)}
. Então,
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle ({\bar {x}},{\bar {u}},{\bar {v}})}
é ponto de sela de
l
{\displaystyle l}
, logo valem as desigualdades:
l
(
x
¯
,
u
,
v
)
≤
l
(
x
¯
,
u
¯
,
v
¯
)
≤
l
(
x
,
u
¯
,
v
¯
)
,
∀
x
∈
R
n
,
∀
u
≥
0
,
∀
v
∈
R
q
{\displaystyle l({\bar {x}},u,v)\leq l({\bar {x}},{\bar {u}},{\bar {v}})\leq l(x,{\bar {u}},{\bar {v}}),\forall x\in \mathbb {R} ^{n},\forall u\geq 0,\forall v\in \mathbb {R} ^{q}}
.
Uma vez que
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
está fixo e a segunda desigualdade vale para qualquer
x
∈
R
n
{\displaystyle x\in \mathbb {R} ^{n}}
, conclui-se que
x
¯
{\displaystyle {\bar {x}}}
é solução do problema
(
P
u
¯
,
v
¯
)
{
min
l
(
x
,
u
¯
,
v
¯
)
x
∈
R
{\displaystyle (P_{{\bar {u}},{\bar {v}}})\left\{{\begin{matrix}\min l(x,{\bar {u}},{\bar {v}})\\x\in \mathbb {R} \end{matrix}}\right.}
As soluções deste problema são soluções de
(
P
r
)
{\displaystyle (Pr)}
e, consequentemente, do problema original.
Exercício
Verificar se existe salto de dualidade nos problemas em dualidade para o seguinte problema de minimização:
(
P
1
)
{
min
x
−
y
2
x
2
+
y
2
≤
1
x
+
y
≤
1
{\displaystyle (P_{1})\left\{{\begin{matrix}\min x-y^{2}\\x^{2}+y^{2}\leq 1\\x+y\leq 1\end{matrix}}\right.}
Exercício
Juntamente com o problema
(
P
1
)
{\displaystyle (P_{1})}
do exercício anterior, considere o seguinte problema:
(
P
2
)
{
min
x
−
y
2
x
≥
0
y
≥
0
x
+
y
≤
1
{\displaystyle (P_{2})\left\{{\begin{matrix}\min x-y^{2}\\x\geq 0\\y\geq 0\\x+y\leq 1\end{matrix}}\right.}
Os problemas são equivalentes? (no sentido de que têm as mesmas funções objetivo e o mesmo conjunto de restrições) O que acontece com relação às condições de KKT?
Apesar de
f
(
x
,
y
)
=
x
−
y
2
{\displaystyle f(x,y)=x-y^{2}}
não ser convexa, é válido o resultado do teorema? Para que serve KKT? É possível resolver o problema dual e usar a resposta para resolver o primal?
Exercício
Experimente escolher
x
∈
R
5
{\displaystyle x\in \mathbb {R} ^{5}}
e uma transformação linear, e um poliedro (intersecção finita de semi-espaços). É difícil de resolver o problema primal. Tente resolver o dual, usando os métodos conhecidos.
A seguir será apresentada uma proposição que responde a uma pergunta deixada anteriormente:
Proposição
Considere o problema
(
P
)
{\displaystyle (P)}
a lagrangiana
l
{\displaystyle l}
e os problemas em dualidade
(
P
r
)
{\displaystyle (Pr)}
e
(
D
)
{\displaystyle (D)}
e
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
soluções de
(
D
)
{\displaystyle (D)}
.
Se
x
¯
{\displaystyle {\bar {x}}}
é solução do problema
(
P
u
¯
,
v
¯
)
{
min
l
(
x
,
u
¯
,
v
¯
)
x
∈
R
,
{\displaystyle (P_{{\bar {u}},{\bar {v}}})\left\{{\begin{matrix}\min l(x,{\bar {u}},{\bar {v}})\\x\in \mathbb {R} \end{matrix}}\right.,}
x
¯
∈
C
{\displaystyle {\bar {x}}\in C}
(o conjunto dos pontos que satisfazem as restrições) e
g
i
(
x
¯
)
u
¯
i
=
0
,
∀
i
{\displaystyle g_{i}({\bar {x}}){\bar {u}}_{i}=0,\forall i}
, então
x
¯
{\displaystyle {\bar {x}}}
é também uma solução do problema
(
P
)
{\displaystyle (P)}
.
Tal proposição fornece um roteiro para quem precisa resolver o problema
(
P
)
{\displaystyle (P)}
relativamente difícil:
Primeiramente, resolve-se
(
D
)
{\displaystyle (D)}
;
Depois, constrói-se o problema
(
P
u
¯
,
v
¯
)
{\displaystyle (P_{{\bar {u}},{\bar {v}}})}
e encontra-se uma solução
x
¯
{\displaystyle {\bar {x}}}
para o mesmo;
Finalmente, se
x
¯
{\displaystyle {\bar {x}}}
satisfaz as últimas condições da proposição, ele é também uma solução de
(
P
)
{\displaystyle (P)}
.
Demonstração
Se
(
u
¯
,
v
¯
)
{\displaystyle ({\bar {u}},{\bar {v}})}
é uma solução de
(
D
)
{\displaystyle (D)}
,
β
¯
=
β
(
u
¯
,
v
¯
)
{\displaystyle {\bar {\beta }}=\beta ({\bar {u}},{\bar {v}})}
. Então, pela definição de
β
(
u
¯
,
v
¯
)
{\displaystyle \beta ({\bar {u}},{\bar {v}})}
, tem-se:
β
¯
=
sup
u
≥
0
v
∈
R
q
β
(
u
,
v
)
{\displaystyle {\bar {\beta }}=\sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}\beta (u,v)}
Como
x
¯
{\displaystyle {\bar {x}}}
é solução de
(
P
u
¯
,
v
¯
)
{\displaystyle (P_{{\bar {u}},{\bar {v}}})}
, então:
l
(
x
¯
,
u
¯
,
v
¯
)
≤
l
(
x
,
u
¯
,
v
¯
)
,
∀
x
∈
R
n
{\displaystyle l({\bar {x}},{\bar {u}},{\bar {v}})\leq l(x,{\bar {u}},{\bar {v}}),\forall x\in \mathbb {R} ^{n}}
ou seja,
l
(
x
¯
,
u
¯
,
v
¯
)
=
min
x
∈
R
n
l
(
x
,
u
¯
,
v
¯
)
=
inf
x
∈
R
n
l
(
x
,
u
¯
,
v
¯
)
=
β
¯
{\displaystyle l({\bar {x}},{\bar {u}},{\bar {v}})=\min _{x\in \mathbb {R} ^{n}}l(x,{\bar {u}},{\bar {v}})=\inf _{x\in \mathbb {R} ^{n}}l(x,{\bar {u}},{\bar {v}})={\bar {\beta }}}
Portanto,
l
(
x
¯
,
u
¯
,
v
¯
)
=
β
¯
=
β
(
u
¯
,
v
¯
)
{\displaystyle l({\bar {x}},{\bar {u}},{\bar {v}})={\bar {\beta }}=\beta ({\bar {u}},{\bar {v}})}
Por outro lado, como
x
∈
C
{\displaystyle x\in C}
, tem-se
g
i
(
x
)
≤
0
;
i
=
1
,
…
,
p
{\displaystyle g_{i}(x)\leq 0;i=1,\ldots ,p}
e
h
j
(
x
)
=
0
;
j
=
1
,
…
,
q
{\displaystyle h_{j}(x)=0;j=1,\ldots ,q}
.
Por hipótese,
g
i
(
x
¯
)
u
¯
i
=
0
{\displaystyle g_{i}({\bar {x}}){\bar {u}}_{i}=0}
, então
∑
i
=
1
p
u
¯
i
g
i
(
x
¯
)
=
0
=
∑
j
=
1
q
v
¯
j
h
j
(
x
¯
)
{\displaystyle \sum _{i=1}^{p}{\bar {u}}_{i}g_{i}({\bar {x}})=0=\sum _{j=1}^{q}{\bar {v}}_{j}h_{j}({\bar {x}})}
Logo,
l
(
x
¯
,
u
¯
,
v
¯
)
=
f
(
x
¯
)
+
∑
i
=
1
p
u
¯
i
g
i
(
x
¯
)
+
∑
j
=
1
q
v
¯
j
h
j
(
x
¯
)
=
f
(
x
¯
)
{\displaystyle l({\bar {x}},{\bar {u}},{\bar {v}})=f({\bar {x}})+\sum _{i=1}^{p}{\bar {u}}_{i}g_{i}({\bar {x}})+\sum _{j=1}^{q}{\bar {v}}_{j}h_{j}({\bar {x}})=f({\bar {x}})}
.
Então para
u
≥
0
{\displaystyle u\geq 0}
tem-se que
u
i
g
i
(
x
¯
)
≤
0
,
∀
i
{\displaystyle u_{i}g_{i}({\bar {x}})\leq 0,\forall i}
e
v
j
h
j
(
x
¯
)
=
0
,
∀
j
{\displaystyle v_{j}h_{j}({\bar {x}})=0,\forall j}
. Consequentemente,
l
(
x
¯
,
u
,
v
)
=
f
(
x
¯
)
+
∑
i
=
1
p
u
i
g
i
(
x
¯
)
+
∑
j
=
1
q
v
j
h
j
(
x
¯
)
≤
f
(
x
¯
)
{\displaystyle l({\bar {x}},u,v)=f({\bar {x}})+\sum _{i=1}^{p}u_{i}g_{i}({\bar {x}})+\sum _{j=1}^{q}v_{j}h_{j}({\bar {x}})\leq f({\bar {x}})}
quaisquer que sejam
u
≥
0
,
v
∈
R
q
{\displaystyle u\geq 0,v\in \mathbb {R} ^{q}}
, ou seja,
l
(
x
¯
,
u
,
v
)
=
f
(
x
¯
)
=
l
(
x
¯
,
u
¯
,
v
¯
)
≤
l
(
x
,
u
¯
,
v
¯
)
{\displaystyle l({\bar {x}},u,v)=f({\bar {x}})=l({\bar {x}},{\bar {u}},{\bar {v}})\leq l(x,{\bar {u}},{\bar {v}})}
,
quaisquer que sejam
u
≥
0
,
v
∈
R
q
{\displaystyle u\geq 0,v\in \mathbb {R} ^{q}}
.
Portanto,
(
x
¯
,
u
¯
,
v
¯
)
{\displaystyle ({\bar {x}},{\bar {u}},{\bar {v}})}
é ponto de sela de
l
{\displaystyle l}
, e assim,
x
¯
{\displaystyle {\bar {x}}}
é solução primal (solução de
(
P
r
)
{\displaystyle (Pr)}
), e em consequência, solução de
(
P
)
{\displaystyle (P)}
.
Neste ponto, pode-se sintetizar a estratégia geral para a resolução de problemas de otimização utilizando esquemas de dualidade.
Considere o problema
{
min
f
(
x
)
g
i
(
x
)
≤
0
;
i
=
1
,
…
,
p
h
j
(
x
)
=
0
;
j
=
1
,
…
,
q
{\displaystyle \left\{{\begin{matrix}\min f(x)\\g_{i}(x)\leq 0;i=1,\ldots ,p\\h_{j}(x)=0;j=1,\ldots ,q\end{matrix}}\right.}
onde
f
,
g
i
,
h
j
:
R
n
↦
R
{\displaystyle f,g_{i},h_{j}:\mathbb {R} ^{n}\mapsto \mathbb {R} }
são funções de classe
C
1
(
R
n
)
{\displaystyle {\mathcal {C}}^{1}(\mathbb {R} ^{n})}
, e seja a lagrangiana
l
:
R
n
×
R
p
×
R
q
↦
R
{\displaystyle l:\mathbb {R} ^{n}\times \mathbb {R} ^{p}\times \mathbb {R} ^{q}\mapsto \mathbb {R} }
definido por
l
(
x
,
u
,
v
)
=
f
(
x
)
+
∑
i
=
1
p
u
i
g
i
(
x
)
+
∑
j
=
1
q
v
j
h
j
(
x
)
{\displaystyle l(x,u,v)=f(x)+\sum _{i=1}^{p}u_{i}g_{i}(x)+\sum _{j=1}^{q}v_{j}h_{j}(x)}
.
Convenciona-se que:
x
{\displaystyle x}
é a variável primal ;
(
u
,
v
)
{\displaystyle (u,v)}
é a variável dual ;
Nesse sentido, "o
R
p
×
R
q
{\displaystyle \mathbb {R} ^{p}\times \mathbb {R} ^{q}}
é o dual de
R
n
{\displaystyle \mathbb {R} ^{n}}
" (não confundir com o significado que essa expressão teria na análise funcional. Ver nota sobre a terminologia ), ou seja:
R
n
{\displaystyle \mathbb {R} ^{n}}
é onde "mora" a variável primal
x
{\displaystyle x}
;
R
p
×
R
q
{\displaystyle \mathbb {R} ^{p}\times \mathbb {R} ^{q}}
é onde "mora" a variável dual
(
u
,
v
)
{\displaystyle (u,v)}
;
Definem-se então as funções
α
{\displaystyle \alpha }
e
β
{\displaystyle \beta }
da seguinte maneira:
α
:
R
n
↦
R
∪
{
+
∞
}
{\displaystyle \alpha :\mathbb {R} ^{n}\mapsto \mathbb {R} \cup \{+\infty \}}
, dada por
α
(
x
)
=
sup
u
≥
0
v
∈
R
q
l
(
x
,
u
,
v
)
{\displaystyle \alpha (x)=\sup _{\begin{smallmatrix}u\geq 0\\v\in \mathbb {R} ^{q}\end{smallmatrix}}l(x,u,v)}
e
β
:
R
p
×
R
q
↦
R
∪
{
−
∞
}
{\displaystyle \beta :\mathbb {R} ^{p}\times \mathbb {R} ^{q}\mapsto \mathbb {R} \cup \{-\infty \}}
, dada por
β
(
u
,
v
)
=
inf
x
∈
R
n
l
(
x
,
u
,
v
)
{\displaystyle \beta (u,v)=\inf _{x\in \mathbb {R} ^{n}}l(x,u,v)}
A partir destas duas funções, formulam-se os seguintes problemas duais:
(
P
r
)
{
min
α
(
x
)
x
∈
R
n
{\displaystyle (Pr)\left\{{\begin{matrix}\min \alpha (x)\\x\in \mathbb {R} ^{n}\end{matrix}}\right.}
e
(
D
)
{
max
β
(
u
,
v
)
u
≥
0
v
∈
R
q
{\displaystyle (D)\left\{{\begin{matrix}\max \beta (u,v)\\u\geq 0\\v\in \mathbb {R} ^{q}\end{matrix}}\right.}
É possível verificar que
(
P
r
)
{\displaystyle (Pr)}
equivale ao problema original
(
P
)
{\displaystyle (P)}
e que
(
D
)
{\displaystyle (D)}
consiste da maximização de uma função côncava em um poliedro (convexo).
Logo, o dual de
(
P
)
{\displaystyle (P)}
é
(
D
)
{\displaystyle (D)}
.
Dado qualquer problema
(
P
)
{\displaystyle (P)}
, seu dual
(
D
)
{\displaystyle (D)}
é um problema côncavo (isto é, a função objetivo é côncava), tal que os pontos satisfazendo o conjunto de restrições formam um poliedro convexo.
Apesar da controvérsia filosófica existente acerca do nome destes conceitos (coisa que poderia muito bem vir a ser alterada no futuro), a moral da história é que "transforma-se um problema geralmente difícil (sem estrutura) em um problema mais fácil (cheio de estrutura)".
Na subárea da matemática denominada Análise Funcional , quando se tem um espaço topológico
X
{\displaystyle X}
, costuma-se chamar de dual topológico ao conjunto
X
∗
=
{
t
:
X
↦
R
;
t
é linear e continua
}
{\displaystyle X^{*}=\{t:X\mapsto \mathbb {R} ;t{\text{ é linear e continua}}\}}
.
Aparentemente, os conceitos de dual da otimização e da análise funcional não tem relação um com o outro.
Um dos primeiros a falar de dualidade (espaços duais) foi o francês Fenchel , mas foi fortemente criticado por Urruty e Lemaréchal, pois os dois conceitos de dualidade não estão relacionados. Também o francês Brezis concordou que há um problema a ser resolvido com a nomenclatura, e um dos conceitos deveria deixar de ser chamado assim.
Wikipedia