Neste capítulo o objetivo é desenvolver algumas ideias e provar o teorema de Karush–Kuhn–Tucker (também chamado simplesmente de teorema KKT ) que será utilizado no capítulo seguinte para explorar os métodos duais.
O teorema KKT é bem útil para resolver problemas do tipo
(
P
)
{
min
f
(
x
)
g
i
(
x
)
≤
0
;
i
=
1
,
…
,
p
h
j
(
x
)
=
0
;
j
=
1
,
…
,
q
{\displaystyle (P)\left\{{\begin{matrix}\min f(x)\\g_{i}(x)\leq 0;i=1,\ldots ,p\\h_{j}(x)=0;j=1,\ldots ,q\end{matrix}}\right.}
Definição
Um conjunto
C
∈
R
n
{\displaystyle C\in \mathbb {R} ^{n}}
é um cone quando
d
∈
C
⇒
t
d
∈
C
,
∀
t
∈
R
+
{\displaystyle d\in C\Rightarrow td\in C,\forall t\in \mathbb {R} _{+}}
Exemplo de um cone no
R
2
{\displaystyle \mathbb {R} ^{2}}
.
Em outras palavras, a propriedade que caracteriza um cone é que este tipo de conjunto contém todos os múltiplos não nulos de qualquer de seus elementos.
Definição
Dado um subconjunto
C
⊂
R
n
{\displaystyle C\subset \mathbb {R} ^{n}}
, o cone polar de
C
{\displaystyle C}
é o conjunto definido por
C
∗
=
{
p
∈
R
n
:
p
⊤
x
≤
0
,
∀
x
∈
C
}
{\displaystyle C^{*}=\{p\in \mathbb {R} ^{n}:p^{\top }x\leq 0,\ \forall x\in C\}}
.
Observações:
C
∗
{\displaystyle C^{*}}
é um cone: Se
d
∈
C
∗
{\displaystyle d\in C^{*}}
tem-se que
d
⊤
x
≤
0
,
∀
x
∈
C
{\displaystyle d^{\top }x\leq 0,\ \forall x\in C}
. Logo, para qualquer
t
∈
R
+
{\displaystyle t\in \mathbb {R} _{+}}
, vale
(
t
d
)
⊤
x
=
t
d
⊤
x
≤
0
,
∀
x
∈
C
{\displaystyle (td)^{\top }x=td^{\top }x\leq 0,\ \forall x\in C}
. Disto segue que
t
d
∈
C
∗
{\displaystyle td\in C^{*}}
, mostrando que
C
∗
{\displaystyle C^{*}}
é um cone.
Sempre se tem que
C
⊆
(
C
∗
)
∗
{\displaystyle C\subseteq (C^{*})^{*}}
(Verifique).
Na segunda propriedade a igualdade pode não ocorrer (exemplo?). Para o objetivo deste texto, o ideal seria que a igualdade valesse. Mas será que isso ocorre para algum conjunto? A resposta é sim e, conforme o próximo lema, basta que
C
{\displaystyle C}
seja um cone convexo fechado.
Este módulo tem a seguinte tarefa pendente: Incluir a definição de projeção antes deste ponto, pois ela será usada durante a demonstração
Lema (Farkas)
Se
C
⊂
R
n
{\displaystyle C\subset \mathbb {R} ^{n}}
um cone convexo fechado, então
C
=
(
C
∗
)
∗
{\displaystyle C=(C^{*})^{*}}
.
Demonstração
Seja
y
∈
(
C
∗
)
∗
{\displaystyle y\in (C^{*})^{*}}
e
w
=
proj
C
(
y
)
{\displaystyle w={\text{proj}}_{C}(y)}
. Sabendo que a projeção de um ponto sobre um conjunto convexo é única, será mostrado que
w
=
y
{\displaystyle w=y}
e então ficará provada a inclusão
C
⊃
(
C
∗
)
∗
{\displaystyle C\supset (C^{*})^{*}}
. Disto seguirá a igualdade entre os dois conjuntos, já que
C
{\displaystyle C}
é sempre um subconjunto de
(
C
∗
)
∗
{\displaystyle (C^{*})^{*}}
.
Pelo teorema da projeção (ver Izmailov & Solodov (2007) ), tem-se que
(
y
−
w
)
⊤
(
x
−
w
)
≤
0
,
∀
x
∈
C
{\displaystyle (y-w)^{\top }(x-w)\leq 0,\ \forall x\in C}
. Usando o fato de que
C
{\displaystyle C}
é cone, segue que
0
∈
C
{\displaystyle 0\in C}
e
2
w
∈
C
{\displaystyle 2w\in C}
e substituindo isto na equação acima obtem-se
(
y
−
w
)
⊤
(
−
w
)
≤
0
{\displaystyle (y-w)^{\top }(-w)\leq 0}
e
(
y
−
w
)
⊤
w
≤
0
{\displaystyle (y-w)^{\top }w\leq 0}
.
Dessas desigualdades, conclui-se que
(
y
−
w
)
⊤
w
=
0
{\displaystyle (y-w)^{\top }w=0}
.
De
(
y
−
w
)
⊤
(
x
−
w
)
=
(
y
−
w
)
⊤
x
−
(
y
−
w
)
⊤
w
≤
0
{\displaystyle (y-w)^{\top }(x-w)=(y-w)^{\top }x-(y-w)^{\top }w\leq 0}
, tem-se que
(
y
−
w
)
⊤
x
≤
0
,
∀
x
∈
C
{\displaystyle (y-w)^{\top }x\leq 0,\ \forall x\in C}
.
Usando a definição de cone polar, isso implica que
y
−
w
∈
C
∗
{\displaystyle y-w\in C^{*}}
.
Uma vez que
y
∈
(
C
∗
)
∗
{\displaystyle y\in (C^{*})^{*}}
, significa que
(
y
−
w
)
⊤
y
≤
0
{\displaystyle (y-w)^{\top }y\leq 0}
.
Desses fatos acima se conclui que
‖
y
−
w
‖
2
=
(
y
−
w
)
⊤
(
y
−
w
)
=
(
y
−
w
)
⊤
y
−
(
y
−
w
)
⊤
w
≤
0
{\displaystyle \|y-w\|^{2}=(y-w)^{\top }(y-w)=(y-w)^{\top }y-(y-w)^{\top }w\leq 0}
Isso mostra que
y
=
w
{\displaystyle y=w}
.
Esse conjunto
V
C
(
x
)
{\displaystyle V_{C}(x)}
é o cone das direções viáveis em
x
{\displaystyle x}
, com respeito a
C
{\displaystyle C}
.
Demonstração
1) Seja
d
∈
D
(
x
)
{\displaystyle d\in D(x)}
. Então,
∀
t
∈
(
0
,
ϵ
]
{\displaystyle \forall t\in (0,\epsilon ]}
tem-se
f
(
x
+
t
d
)
<
f
(
x
)
{\displaystyle f(x+td)<f(x)}
.
Usando a série de Taylor, tem-se
f
(
x
)
+
t
∇
f
(
x
)
⊤
d
+
o
(
t
)
<
f
(
x
)
{\displaystyle f(x)+t\nabla f(x)^{\top }d+o(t)<f(x)}
Sendo
t
≠
0
{\displaystyle t\neq 0}
,
∇
f
(
x
)
⊤
d
+
o
(
t
)
t
<
0
{\displaystyle \nabla f(x)^{\top }d+{\frac {o(t)}{t}}<0}
.
Passando o limite com
t
→
0
{\displaystyle t\rightarrow 0}
tem-se que
∇
f
(
x
)
⊤
d
≤
0
{\displaystyle \nabla f(x)^{\top }d\leq 0}
.
2) Novamente aplicando Taylor em
f
(
x
+
t
d
)
−
f
(
x
)
{\displaystyle f(x+td)-f(x)}
tem-se
f
(
x
+
t
d
)
−
f
(
x
)
=
t
∇
f
(
x
)
⊤
d
+
o
(
t
)
{\displaystyle f(x+td)-f(x)=t\nabla f(x)^{\top }d+o(t)}
.
Como
t
≠
0
{\displaystyle t\neq 0}
, tem-se
f
(
x
+
t
d
)
−
f
(
x
)
=
t
(
∇
f
(
x
)
⊤
d
+
o
(
t
)
t
)
{\displaystyle f(x+td)-f(x)=t(\nabla f(x)^{\top }d+{\frac {o(t)}{t}})}
.
Pela hipótese
∇
f
(
x
)
⊤
d
<
0
{\displaystyle \nabla f(x)^{\top }d<0}
, com isto
lim
t
→
0
(
∇
f
(
x
)
⊤
d
+
o
(
t
)
t
)
=
∇
f
(
x
)
⊤
d
<
0
{\displaystyle \lim _{t\rightarrow 0}{(\nabla f(x)^{\top }d+{\frac {o(t)}{t}})}=\nabla f(x)^{\top }d<0}
.
Pelo teorema da conservação do sinal, existe
ϵ
>
0
{\displaystyle \epsilon >0}
tal que
∇
f
(
x
)
⊤
d
+
o
(
t
)
t
<
0
,
∀
t
∈
(
0
,
ϵ
]
{\displaystyle \nabla f(x)^{\top }d+{\frac {o(t)}{t}}<0,\ \forall t\in (0,\epsilon ]}
.
Portanto,
t
(
∇
f
(
x
)
⊤
d
+
o
(
t
)
t
)
<
0
{\displaystyle t(\nabla f(x)^{\top }d+{\frac {o(t)}{t}})<0}
f
(
x
+
t
d
)
<
f
(
x
)
∀
t
∈
(
0
,
ϵ
]
{\displaystyle f(x+td)<f(x)\ \forall t\in (0,\epsilon ]}
.
Conclui-se então que
d
∈
D
(
x
)
{\displaystyle d\in D(x)}
.
Observações
O conjunto formado pelos índices das restrições de desigualdade ativas é denotado por
I
(
x
)
{\displaystyle I(x)}
. Assim,
I
(
x
)
=
{
i
:
g
i
(
x
)
=
0
}
{\displaystyle I(x)=\{i:g_{i}(x)=0\}}
Definição
Dado um ponto
x
∈
C
{\displaystyle x\in C}
e o conjunto
I
(
x
)
{\displaystyle I(x)}
, se define o cone viável linearizado de
C
{\displaystyle C}
a partir de
x
{\displaystyle x}
como
L
(
x
,
C
)
=
{
d
∈
R
n
:
∇
g
j
(
x
)
⊤
d
≤
0
,
∀
j
∈
I
(
x
)
e
∇
h
i
(
x
)
⊤
d
=
0
,
∀
i
=
1
,
…
,
q
}
{\displaystyle L(x,C)=\{d\in \mathbb {R} ^{n}:\nabla g_{j}(x)^{\top }d\leq 0,\ \forall j\in I(x)\ {\text{e}}\ \nabla h_{i}(x)^{\top }d=0,\ \forall i=1,\dots ,q\}}
.
L
(
x
,
C
)
{\displaystyle L(x,C)}
é um cone não-vazio convexo e fechado pois,
0
∈
L
(
x
,
C
)
{\displaystyle 0\in L(x,C)}
. E se
y
,
w
∈
L
(
x
,
C
)
{\displaystyle y,w\in L(x,C)}
, tem-se
∇
h
i
(
x
)
⊤
(
α
y
+
(
1
−
α
)
w
)
=
α
∇
h
i
(
x
)
⊤
y
+
(
1
−
α
)
∇
h
i
(
x
)
⊤
w
=
α
0
+
(
1
−
α
)
0
=
0
{\displaystyle \nabla h_{i}(x)^{\top }(\alpha y+(1-\alpha )w)=\alpha \nabla h_{i}(x)^{\top }y+(1-\alpha )\nabla h_{i}(x)^{\top }w=\alpha 0+(1-\alpha )0=0}
e
∇
g
j
(
x
)
⊤
(
α
y
+
(
1
−
α
)
w
)
=
α
∇
g
j
(
x
)
⊤
y
+
(
1
−
α
)
∇
g
j
(
x
)
⊤
w
≤
α
0
+
(
1
−
α
)
0
≤
0
{\displaystyle \nabla g_{j}(x)^{\top }(\alpha y+(1-\alpha )w)=\alpha \nabla g_{j}(x)^{\top }y+(1-\alpha )\nabla g_{j}(x)^{\top }w\leq \alpha 0+(1-\alpha )0\leq 0}
.
Portanto
α
y
+
(
1
−
α
)
w
∈
L
(
x
,
C
)
{\displaystyle \alpha y+(1-\alpha )w\in L(x,C)}
mostrando que
L
(
x
,
C
)
{\displaystyle L(x,C)}
é convexo.
Para mostrar que
L
(
x
,
C
)
{\displaystyle L(x,C)}
é fechado, pode-se pegar uma sequência convergente
(
d
k
)
∈
L
(
x
,
C
)
{\displaystyle (d^{k})\in L(x,C)}
e mostrar que o ponto de acumulação dela esta em
L
(
x
,
C
)
{\displaystyle L(x,C)}
.
Tem-se que
∇
h
i
(
x
)
⊤
d
k
=
0
e
∇
g
j
(
x
)
⊤
d
k
≤
0
,
∀
k
∈
N
{\displaystyle \nabla h_{i}(x)^{\top }d^{k}=0\ {\text{e}}\ \nabla g_{j}(x)^{\top }d^{k}\leq 0,\ \forall k\in \mathbb {N} }
.
Passando o limite com
k
→
∞
{\displaystyle k\rightarrow \infty }
, obtem-se
0
=
lim
k
→
∞
∇
h
i
(
x
)
⊤
d
k
=
∇
h
i
(
x
)
⊤
lim
k
→
∞
d
k
=
∇
h
i
(
x
)
⊤
d
{\displaystyle 0=\lim _{k\rightarrow \infty }{\nabla h_{i}(x)^{\top }d^{k}}=\nabla h_{i}(x)^{\top }\lim _{k\rightarrow \infty }{d^{k}}=\nabla h_{i}(x)^{\top }d}
e
0
≥
lim
k
→
∞
∇
g
j
(
x
)
⊤
d
k
=
∇
g
j
(
x
)
⊤
lim
k
→
∞
d
k
=
∇
g
j
(
x
)
⊤
d
{\displaystyle 0\geq \lim _{k\rightarrow \infty }{\nabla g_{j}(x)^{\top }d^{k}}=\nabla g_{j}(x)^{\top }\lim _{k\rightarrow \infty }{d^{k}}=\nabla g_{j}(x)^{\top }d}
.
Isso mostra que
L
(
x
,
C
)
{\displaystyle L(x,C)}
é fechado.
Lema (Caratheodory)
Sejam
y
1
,
…
,
y
m
,
w
1
,
…
,
w
p
∈
R
n
{\displaystyle y_{1},\dots ,y_{m},w_{1},\dots ,w_{p}\in \mathbb {R} ^{n}}
. Seja
x
∈
R
n
{\displaystyle x\in \mathbb {R} ^{n}}
com
x
≠
0
{\displaystyle x\neq 0}
e
α
1
,
…
,
α
m
,
β
1
,
…
,
β
p
{\displaystyle \alpha _{1},\dots ,\alpha _{m},\beta _{1},\dots ,\beta _{p}}
escalares tais que
β
j
≥
0
∀
j
=
1
,
…
,
p
{\displaystyle \beta _{j}\geq 0\ \forall j=1,\dots ,p}
e
x
=
∑
i
=
1
m
α
i
y
i
+
∑
j
=
1
p
β
j
w
j
{\displaystyle x=\sum _{i=1}^{m}\alpha _{i}y_{i}+\sum _{j=1}^{p}\beta _{j}w_{j}}
.
Então existem subconjuntos
I
⊂
{
1
,
…
,
m
}
,
J
⊂
{
1
,
…
,
p
}
{\displaystyle I\subset \{1,\dots ,m\}{\text{, }}J\subset \{1,\dots ,p\}}
e escalares
α
i
∗
{\displaystyle \alpha _{i}^{*}}
com
i
∈
I
{\displaystyle i\in I}
e
β
j
∗
∀
j
∈
J
{\displaystyle \beta _{j}^{*}\ \forall j\in J}
tais que
x
=
∑
i
∈
I
α
i
∗
y
i
+
∑
j
∈
J
β
j
∗
w
j
{\displaystyle x=\sum _{i\in I}\alpha _{i}^{*}y_{i}+\sum _{j\in J}\beta _{j}^{*}w_{j}}
e os vetores
{
y
i
}
i
∈
I
∪
{
w
j
}
j
∈
J
{\displaystyle \{y_{i}\}_{i\in I}\cup \{w_{j}\}_{j\in J}}
são linearmente independentes.
Demonstração
Sem perda de generalidade, suponha que
α
i
≠
0
∀
i
=
1
,
…
,
m
{\displaystyle \alpha _{i}\neq 0\ \forall i=1,\dots ,m}
e
β
j
>
0
,
∀
j
=
1
,
…
,
p
{\displaystyle \beta _{j}>0,\ \forall j=1,\dots ,p}
. Considere que
{
y
1
,
…
,
y
m
,
w
1
,
…
,
w
p
}
{\displaystyle \{y_{1},\dots ,y_{m},w_{1},\dots ,w_{p}\}}
sejam linearmente dependentes.
Portanto existem escalares
λ
i
{\displaystyle \lambda _{i}}
com
i
=
1
,
…
,
m
{\displaystyle i=1,\dots ,m}
e
δ
j
{\displaystyle \delta _{j}}
com
j
=
1
,
…
,
p
{\displaystyle j=1,\dots ,p}
não todos nulos tais que
0
=
∑
i
=
1
m
λ
i
y
i
+
∑
j
=
1
p
δ
j
w
j
{\displaystyle 0=\sum _{i=1}^{m}\lambda _{i}y_{i}+\sum _{j=1}^{p}\delta _{j}w_{j}}
Multiplicando a igualdade acima por
t
{\displaystyle t}
e subtraindo de
x
=
∑
i
=
1
m
α
i
y
i
+
∑
j
=
1
p
β
j
w
j
{\displaystyle x=\sum _{i=1}^{m}\alpha _{i}y_{i}+\sum _{j=1}^{p}\beta _{j}w_{j}}
tem-se
x
=
∑
i
=
1
m
(
α
i
−
t
λ
i
)
y
i
+
∑
j
=
1
p
(
β
j
−
t
δ
j
)
w
j
{\displaystyle x=\sum _{i=1}^{m}(\alpha _{i}-t\lambda _{i})y_{i}+\sum _{j=1}^{p}(\beta _{j}-t\delta _{j})w_{j}}
Para
t
=
0
{\displaystyle t=0}
certamente nenhum dos coeficientes acima se anula.
Seja
t
¯
{\displaystyle {\bar {t}}}
o
t
{\displaystyle t}
de menor módulo que anula pelo menos um dos coeficientes
α
i
−
t
λ
i
{\displaystyle \alpha _{i}-t\lambda _{i}}
ou
β
j
−
t
δ
j
{\displaystyle \beta _{j}-t\delta _{j}}
. Então
x
=
∑
i
=
1
m
(
α
i
−
t
¯
λ
i
)
y
i
+
∑
j
=
1
p
(
β
j
−
t
¯
δ
j
)
w
j
{\displaystyle x=\sum _{i=1}^{m}(\alpha _{i}-{\bar {t}}\lambda _{i})y_{i}+\sum _{j=1}^{p}(\beta _{j}-{\bar {t}}\delta _{j})w_{j}}
Assim, se escreve
x
{\displaystyle x}
como combinação linear de no máximo
m
+
p
−
1
{\displaystyle m+p-1}
vetores já que
β
j
−
t
¯
δ
j
≥
0
{\displaystyle \beta _{j}-{\bar {t}}\delta _{j}\geq 0}
.
Repetindo esse processo obtem-se uma combinação linearmente independente.
Definição
Dado um ponto
x
∈
C
{\displaystyle x\in C}
, se define o cone
G
(
x
)
{\displaystyle G(x)}
por
G
(
x
)
=
{
∑
i
=
1
q
α
i
∇
h
i
(
x
)
+
∑
j
∈
I
(
x
)
β
j
∇
g
j
(
x
)
:
β
j
≥
0
,
∀
j
∈
I
(
x
)
}
{\displaystyle G(x)=\{\sum _{i=1}^{q}\alpha _{i}\nabla h_{i}(x)+\sum _{j\in I(x)}\beta _{j}\nabla g_{j}(x):\beta _{j}\geq 0,\ \forall j\in I(x)\}}
.
A seguir, serão mostradas algumas propriedades deste cone.
Lema
Para qualquer
x
∈
C
{\displaystyle x\in C}
,
G
(
x
)
{\displaystyle G(x)}
é um cone convexo e fechado.
Demonstração
Primeiro será mostrado que
G
(
x
)
{\displaystyle G(x)}
é de fato um cone. Seja
d
∈
G
(
x
)
{\displaystyle d\in G(x)}
e
t
≥
0
{\displaystyle t\geq 0}
. Então tem-se
t
d
=
∑
i
=
1
q
t
α
i
∇
h
i
(
x
)
+
∑
j
∈
I
(
x
)
t
β
j
∇
g
j
(
x
)
{\displaystyle td=\sum _{i=1}^{q}t\alpha _{i}\nabla h_{i}(x)+\sum _{j\in I(x)}t\beta _{j}\nabla g_{j}(x)}
.
Como
t
β
j
≥
0
{\displaystyle t\beta _{j}\geq 0}
tem-se que
t
d
∈
G
(
x
)
{\displaystyle td\in G(x)}
.
Agora, será provado que
G
(
x
)
{\displaystyle G(x)}
é convexo. Para isso seja
y
,
w
∈
G
(
x
)
{\displaystyle y,w\in G(x)}
, isto é,
y
=
∑
i
=
1
q
α
i
∇
h
i
(
x
)
+
∑
j
∈
I
(
x
)
β
j
∇
g
j
(
x
)
{\displaystyle y=\sum _{i=1}^{q}\alpha _{i}\nabla h_{i}(x)+\sum _{j\in I(x)}\beta _{j}\nabla g_{j}(x)}
e
w
=
∑
i
=
1
q
λ
i
∇
h
i
(
x
)
+
∑
j
∈
I
(
x
)
δ
j
∇
g
j
(
x
)
{\displaystyle w=\sum _{i=1}^{q}\lambda _{i}\nabla h_{i}(x)+\sum _{j\in I(x)}\delta _{j}\nabla g_{j}(x)}
e
t
∈
[
0
,
1
]
{\displaystyle t\in [0,1]}
.
Logo tem-se,
t
y
+
(
1
−
t
)
w
=
∑
i
=
1
q
(
t
α
i
+
(
1
−
t
)
λ
i
)
∇
h
i
(
x
)
+
∑
j
∈
I
(
x
)
(
t
β
j
+
(
1
−
t
)
δ
j
)
∇
g
j
(
x
)
{\displaystyle ty+(1-t)w=\sum _{i=1}^{q}(t\alpha _{i}+(1-t)\lambda _{i})\nabla h_{i}(x)+\sum _{j\in I(x)}(t\beta _{j}+(1-t)\delta _{j})\nabla g_{j}(x)}
.
Como
t
β
j
+
(
1
−
t
)
δ
j
≥
0
{\displaystyle t\beta _{j}+(1-t)\delta _{j}\geq 0}
visto que
β
j
≥
0
{\displaystyle \beta _{j}\geq 0}
e
δ
j
≥
0
{\displaystyle \delta _{j}\geq 0}
. Com isso concluímos que
t
y
+
(
1
−
t
)
w
∈
G
(
x
)
{\displaystyle ty+(1-t)w\in G(x)}
mostrando que
G
(
x
)
{\displaystyle G(x)}
é convexo.
Para mostrar que
G
(
x
)
{\displaystyle G(x)}
é fechado, toma-se uma sequência convergente em
G
(
x
)
{\displaystyle G(x)}
e se mostra que o ponto de acumulação dela pertence a
G
(
x
)
{\displaystyle G(x)}
.
Para isso seja
(
z
k
)
⊂
G
(
x
)
{\displaystyle (z^{k})\subset G(x)}
com
z
k
→
z
∈
R
n
{\displaystyle z^{k}\rightarrow z\in \mathbb {R} ^{n}}
. Será mostrado que
z
∈
G
(
x
)
{\displaystyle z\in G(x)}
.
Escrevendo
G
(
x
)
{\displaystyle G(x)}
em forma matricial tem-se
G
(
x
)
=
{
A
Δ
+
B
Ω
:
Ω
≥
0
}
{\displaystyle G(x)=\{A\Delta +B\Omega :\Omega \geq 0\}}
.
Pelo Lema de Caratheodory podemos assumir que
C
=
(
A
B
)
{\displaystyle C=(A\ B)}
tem colunas linearmente independentes, e portanto
C
⊤
C
{\displaystyle C^{\top }C}
é não singular.
Uma vez que
(
z
k
)
⊂
G
(
x
)
{\displaystyle (z^{k})\subset G(x)}
, existem
Γ
k
=
(
Δ
k
Ω
k
)
t
{\displaystyle \Gamma ^{k}=(\Delta ^{k}\ \Omega ^{k})^{t}}
com
Ω
k
≥
0
{\displaystyle \Omega ^{k}\geq 0}
tais que
z
k
=
C
Γ
k
{\displaystyle z^{k}=C\Gamma ^{k}}
.
Uma vez que
C
⊤
C
{\displaystyle C^{\top }C}
é não singular,
Γ
k
=
(
C
⊤
C
)
−
1
C
⊤
z
k
{\displaystyle \Gamma ^{k}=(C^{\top }C)^{-1}C^{\top }z^{k}}
.
Passando o limite obtem-se,
(
Δ
Ω
)
t
=
Γ
=
lim
k
→
∞
Γ
k
=
(
C
⊤
C
)
−
1
C
⊤
z
{\displaystyle (\Delta \ \Omega )^{t}=\Gamma =\lim _{k\rightarrow \infty }{\Gamma ^{k}}=(C^{\top }C)^{-1}C^{\top }z}
com
Ω
≥
0
{\displaystyle \Omega \geq 0}
.
Isso mostra que
C
Ω
∈
G
(
x
)
{\displaystyle C\Omega \in G(x)}
.
Agora passando o limite em
z
k
=
C
Ω
k
{\displaystyle z^{k}=C\Omega ^{k}}
obtém-se
z
=
C
Ω
{\displaystyle z=C\Omega }
, mostrando que
z
∈
G
(
x
)
{\displaystyle z\in G(x)}
.
Lema
Para qualquer
x
∈
C
{\displaystyle x\in C}
,
G
(
x
)
=
L
(
x
,
C
)
∗
{\displaystyle G(x)=L(x,C)^{*}}
.
Demonstração
Como
L
(
x
,
C
)
{\displaystyle L(x,C)}
e
G
(
x
)
{\displaystyle G(x)}
são convexos e fechados, tem-se que
L
(
x
,
C
)
=
(
L
(
x
,
C
)
∗
)
∗
{\displaystyle L(x,C)=(L(x,C)^{*})^{*}}
e
G
(
x
)
=
(
G
(
x
)
∗
)
∗
{\displaystyle G(x)=(G(x)^{*})^{*}}
. Será mostrado então que
L
(
x
,
C
)
=
G
(
x
)
∗
{\displaystyle L(x,C)=G(x)^{*}}
.
Seja
d
∈
L
(
x
,
C
)
{\displaystyle d\in L(x,C)}
. Assim, dado
y
∈
G
(
x
)
{\displaystyle y\in G(x)}
tem-se
d
⊤
y
=
d
⊤
(
∑
i
=
1
q
α
i
∇
h
i
(
x
)
+
∑
j
∈
I
(
x
)
β
j
∇
g
j
(
x
)
)
{\displaystyle d^{\top }y=d^{\top }(\sum _{i=1}^{q}\alpha _{i}\nabla h_{i}(x)+\sum _{j\in I(x)}\beta _{j}\nabla g_{j}(x))}
d
⊤
y
=
∑
i
=
1
q
α
i
d
⊤
∇
h
i
(
x
)
+
∑
j
∈
I
(
x
)
β
j
d
⊤
∇
g
j
(
x
)
{\displaystyle d^{\top }y=\sum _{i=1}^{q}\alpha _{i}d^{\top }\nabla h_{i}(x)+\sum _{j\in I(x)}\beta _{j}d^{\top }\nabla g_{j}(x)}
Mas
β
≥
0
{\displaystyle \beta \geq 0}
e
d
⊤
∇
h
i
(
x
)
=
0
{\displaystyle d^{\top }\nabla h_{i}(x)=0}
e
d
⊤
∇
g
j
(
x
)
≤
0
{\displaystyle d^{\top }\nabla g_{j}(x)\leq 0}
.
Conclui-se então que
d
⊤
y
≤
0
{\displaystyle d^{\top }y\leq 0}
. Como
y
{\displaystyle y}
é arbitrário,
d
∈
G
(
x
)
∗
{\displaystyle d\in G(x)^{*}}
.
Agora a volta, seja
d
∈
G
(
x
)
∗
{\displaystyle d\in G(x)^{*}}
, isto é,
d
⊤
y
≤
0
∀
y
∈
G
(
x
)
{\displaystyle d^{\top }y\leq 0\ \forall y\in G(x)}
.
Em particular, uma vez que
∇
h
i
(
x
)
{\displaystyle \nabla h_{i}(x)}
e
−
∇
h
i
(
x
)
∈
G
(
x
)
∀
i
=
1
,
…
,
q
{\displaystyle -\nabla h_{i}(x)\in G(x)\ \forall i=1,\dots ,q}
, tem-se que
d
⊤
∇
h
i
(
x
)
=
0
{\displaystyle d^{\top }\nabla h_{i}(x)=0}
.
Além disso, uma vez que
∇
g
j
(
x
)
∈
G
(
x
)
∀
j
∈
I
(
x
)
{\displaystyle \nabla g_{j}(x)\in G(x)\ \forall j\in I(x)}
, tem-se que
d
⊤
∇
g
j
(
x
)
≤
0
{\displaystyle d^{\top }\nabla g_{j}(x)\leq 0}
.
Logo
d
∈
L
(
x
,
C
)
{\displaystyle d\in L(x,C)}
.
Observações
O conjunto de todas as direções tangentes no ponto
x
∈
C
{\displaystyle x\in C}
, é denominado cone tangente , e denotado por
T
(
x
,
C
)
{\displaystyle T(x,C)}
.
Se
a
∈
C
{\displaystyle a\in C}
, então
T
(
a
,
C
)
{\displaystyle T(a,C)}
também pode ser descrito como
T
(
a
,
C
)
=
{
d
∈
;
∃
{
d
k
}
com
d
k
→
d
;
∃
{
t
k
}
com
t
k
→
0
tais que
x
=
a
+
t
k
d
k
∈
C
,
∀
k
}
{\displaystyle T(a,C)=\left\{d\in ;\exists \{d_{k}\}{\text{ com }}d_{k}\to d;\quad \exists \{t_{k}\}{\text{ com }}t_{k}\to 0{\text{ tais que }}x=a+t_{k}d_{k}\in C,\,\forall k\right\}}
Exercício
Verifique que
T
(
a
,
C
)
{\displaystyle T(a,C)}
é de fato um cone (e portanto merece ser chamado de "cone tangente").
Resolução
A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo.
Determinar o cone tangente ao ponto
a
=
(
0
,
0
)
{\displaystyle a=(0,0)}
do quadrado unitário com vértices
(
0
,
0
)
{\displaystyle (0,0)}
,
(
0
,
1
)
{\displaystyle (0,1)}
,
(
−
1
,
1
)
{\displaystyle (-1,1)}
e
(
−
1
,
0
)
{\displaystyle (-1,0)}
.
Resolução
Cone tangente a um quadrado unitário com vértice na origem.
Dado qualquer ponto
d
=
(
d
0
,
d
1
)
{\displaystyle d=(d_{0},d_{1})}
do 2º quadrante (formado pelos pontos
(
x
,
y
)
{\displaystyle (x,y)}
tais que
x
<
0
{\displaystyle x<0}
e
y
>
0
{\displaystyle y>0}
), pode-se definir:
t
k
=
(
1
2
)
k
{\displaystyle t_{k}=\left({\frac {1}{2}}\right)^{k}}
d
k
=
d
{\displaystyle d_{k}=d}
Com essas escolhas, tem-se:
t
k
→
0
{\displaystyle t_{k}\to 0}
d
k
→
d
{\displaystyle d_{k}\to d}
Logo,
a
+
t
k
d
k
=
a
+
(
1
2
)
k
d
=
(
0
,
0
)
+
(
d
0
2
k
,
d
1
2
k
)
=
(
d
0
2
k
,
d
1
2
k
)
∈
C
{\displaystyle a+t_{k}d_{k}=a+\left({\frac {1}{2}}\right)^{k}d=(0,0)+\left({\frac {d_{0}}{2^{k}}},{\frac {d_{1}}{2^{k}}}\right)=\left({\frac {d_{0}}{2^{k}}},{\frac {d_{1}}{2^{k}}}\right)\in C}
.
Wikipedia
O cone tangente definido anteriormente tem as seguintes propriedades:
T
(
a
,
C
)
{\displaystyle T(a,C)}
é fechado e
0
∈
T
(
a
,
C
)
{\displaystyle 0\in T(a,C)}
Se
C
⊂
D
{\displaystyle C\subset D}
então
T
(
a
,
C
)
⊂
T
(
a
,
D
)
{\displaystyle T(a,C)\subset T(a,D)}
Se
V
{\displaystyle V}
é uma vizinhança de
a
{\displaystyle a}
, então
T
(
a
,
C
)
=
T
(
a
,
V
∩
C
)
{\displaystyle T(a,C)=T(a,V\cap C)}
Observação
A terceira propriedade indica que o cone tangente só depende do que ocorre bem perto de
a
{\displaystyle a}
, no conjunto
C
{\displaystyle C}
.
Lema
Para qualquer
x
∈
C
{\displaystyle x\in C}
,
T
(
x
,
C
)
{\displaystyle T(x,C)}
é fechado.
Demonstração
Seja
(
d
k
)
⊂
T
(
x
,
C
)
{\displaystyle (d^{k})\subset T(x,C)}
com
d
k
→
d
∈
R
n
{\displaystyle d^{k}\rightarrow d\in \mathbb {R} ^{n}}
. Será mostrado que
d
∈
T
(
x
,
C
)
{\displaystyle d\in T(x,C)}
.
Caso
d
=
0
{\displaystyle d=0}
,
d
∈
T
(
x
,
C
)
{\displaystyle d\in T(x,C)}
. Então, suponha-se que
d
≠
0
{\displaystyle d\neq 0}
.
Neste caso, sem perda de generalidade pode-se considerar que
d
k
≠
0
,
∀
k
∈
N
{\displaystyle d^{k}\neq 0,\ \forall k\in \mathbb {N} }
, pois
d
k
→
d
{\displaystyle d^{k}\rightarrow d}
.
Fixando
k
∈
N
{\displaystyle k\in \mathbb {N} }
tem-se que
d
k
∈
T
(
x
,
C
)
{\displaystyle d^{k}\in T(x,C)}
. Portanto, existe
(
x
k
,
j
)
j
∈
N
⊂
C
{\displaystyle (x^{k,j})_{j\in \mathbb {N} }\subset C}
tal que
x
k
,
j
→
x
{\displaystyle x^{k,j}\rightarrow x}
e
x
k
,
j
−
x
‖
x
k
,
j
−
x
‖
→
d
k
‖
d
k
‖
{\displaystyle {\frac {x^{k,j}-x}{\|x^{k,j}-x\|}}\rightarrow {\frac {d^{k}}{\|d^{k}\|}}}
quando
j
→
∞
{\displaystyle j\rightarrow \infty }
.
Assim para
ϵ
=
1
k
{\displaystyle \epsilon ={\frac {1}{k}}}
existe
j
k
∈
N
{\displaystyle j_{k}\in \mathbb {N} }
tal que para
j
≥
j
k
{\displaystyle j\geq j_{k}}
, tal que
‖
x
k
,
j
−
x
‖
<
1
k
{\displaystyle \|x^{k,j}-x\|<{\frac {1}{k}}}
e
|
x
k
,
j
−
x
‖
x
k
,
j
−
x
‖
−
d
k
‖
d
k
‖
|
<
1
k
{\displaystyle {\bigg |}{\frac {x^{k,j}-x}{\|x^{k,j}-x\|}}-{\frac {d^{k}}{\|d^{k}\|}}{\bigg |}<{\frac {1}{k}}}
.
Em particular, tomando
j
=
j
k
{\displaystyle j=j_{k}}
tem-se
‖
x
k
,
j
k
−
x
‖
<
1
k
{\displaystyle \|x^{k,j_{k}}-x\|<{\frac {1}{k}}}
e
|
x
k
,
j
k
−
x
‖
x
k
,
j
k
−
x
‖
−
d
k
‖
d
k
‖
|
<
1
k
{\displaystyle {\bigg |}{\frac {x^{k,j_{k}}-x}{\|x^{k,j_{k}}-x\|}}-{\frac {d^{k}}{\|d^{k}\|}}{\bigg |}<{\frac {1}{k}}}
.
Tomando o limite quando
k
→
∞
{\displaystyle k\rightarrow \infty }
, obtem-se que
x
k
→
x
{\displaystyle x^{k}\rightarrow x}
e
|
x
k
,
j
k
−
x
‖
x
k
,
j
k
−
x
‖
−
d
‖
d
‖
|
≤
|
x
k
,
j
k
−
x
‖
x
k
,
j
k
−
x
‖
−
d
k
‖
d
k
‖
|
+
|
d
k
‖
d
k
‖
−
d
‖
d
‖
|
→
0
{\displaystyle {\bigg |}{\frac {x^{k,j_{k}}-x}{\|x^{k,j_{k}}-x\|}}-{\frac {d}{\|d\|}}{\bigg |}\leq {\bigg |}{\frac {x^{k,j_{k}}-x}{\|x^{k,j_{k}}-x\|}}-{\frac {d^{k}}{\|d^{k}\|}}{\bigg |}+{\bigg |}{\frac {d^{k}}{\|d^{k}\|}}-{\frac {d}{\|d\|}}{\bigg |}\rightarrow 0}
.
Logo
x
k
−
x
‖
x
k
−
x
‖
→
d
‖
d
‖
{\displaystyle {\frac {x^{k}-x}{\|x^{k}-x\|}}\rightarrow {\frac {d}{\|d\|}}}
.
Isso mostra que
d
∈
T
(
x
,
C
)
{\displaystyle d\in T(x,C)}
.
Exercício
Verificar que:
T
(
a
,
C
)
⊂
L
(
a
,
C
)
{\displaystyle T(a,C)\subset L(a,C)}
.
Se
C
=
{
(
x
,
y
)
∈
R
2
;
x
2
+
y
≤
0
;
x
2
−
y
≤
0
}
{\displaystyle C=\{(x,y)\in \mathbb {R} ^{2};x^{2}+y\leq 0;\quad x^{2}-y\leq 0\}}
e
a
=
(
0
,
0
)
{\displaystyle a=(0,0)}
, então
T
(
a
,
C
)
≠
L
(
a
,
C
)
{\displaystyle T(a,C)\not =L(a,C)}
.
Lema
Se
a
∈
C
{\displaystyle a\in C}
é um mínimo local do problema (P), então
∇
f
(
a
)
⊤
d
≥
0
,
∀
d
∈
T
(
a
,
C
)
{\displaystyle \nabla f(a)^{\top }d\geq 0,\ \forall d\in T(a,C)}
.
Teorema (Condições de KKT)
Seja
C
=
{
x
∈
R
n
;
g
i
(
x
)
≤
0
e
h
j
(
x
)
=
0
}
{\displaystyle C=\{x\in \mathbb {R} ^{n};g_{i}(x)\leq 0{\text{ e }}h_{j}(x)=0\}}
e considere
a
∈
C
{\displaystyle a\in C}
um minimizador local do problema
(
P
)
{
min
f
(
x
)
x
∈
C
{\displaystyle (P)\left\{{\begin{matrix}\min f(x)\\x\in C\end{matrix}}\right.}
Se
T
(
a
,
C
)
∗
=
L
(
a
,
C
)
∗
{\displaystyle T(a,C)^{*}=L(a,C)^{*}}
, então existem
u
∈
R
p
{\displaystyle u\in \mathbb {R} ^{p}}
e
v
∈
R
q
{\displaystyle v\in \mathbb {R} ^{q}}
tais que:
−
∇
f
(
a
)
=
∑
i
=
1
p
u
i
∇
g
i
(
a
)
+
∑
j
=
1
q
v
j
∇
h
j
(
a
)
{\displaystyle -\nabla f(a)=\sum _{i=1}^{p}u_{i}\nabla g_{i}(a)+\sum _{j=1}^{q}v_{j}\nabla h_{j}(a)}
u
i
≥
0
,
∀
i
=
1
,
…
,
p
{\displaystyle u_{i}\geq 0,\ \forall i=1,\dots ,p}
u
i
g
i
(
a
)
=
0
,
∀
i
=
1
,
…
,
p
{\displaystyle u_{i}g_{i}(a)=0,\ \forall i=1,\dots ,p}
.
Demonstração
Considere
a
{\displaystyle a}
um minimizador local do problema (P) . Então
(
−
∇
f
(
a
)
)
⊤
d
≤
0
,
∀
d
∈
T
(
a
,
C
)
{\displaystyle (-\nabla f(a))^{\top }d\leq 0,\ \forall d\in T(a,C)}
. Pela definição de cone polar isso significa que
−
∇
f
(
a
)
∈
T
(
a
,
C
)
∗
{\displaystyle -\nabla f(a)\in T(a,C)^{*}}
.
Pela hipotése tem-se
−
∇
f
(
a
)
∈
L
(
a
,
C
)
∗
{\displaystyle -\nabla f(a)\in L(a,C)^{*}}
. Como
L
(
a
,
C
)
=
G
(
a
)
∗
{\displaystyle L(a,C)=G(a)^{*}}
obtem-se que
−
∇
f
(
a
)
∈
(
G
(
a
)
∗
)
∗
{\displaystyle -\nabla f(a)\in (G(a)^{*})^{*}}
.
Como foi visto acima
G
(
a
)
{\displaystyle G(a)}
é um cone convexo e fechado. Portanto usando o Lema de Farkas obtem-se que
−
∇
f
(
a
)
∈
G
(
a
)
{\displaystyle -\nabla f(a)\in G(a)}
.
Pela definição de
G
(
a
)
{\displaystyle G(a)}
, existem escalares
δ
i
{\displaystyle \delta _{i}}
com
i
∈
I
(
a
)
{\displaystyle i\in I(a)}
e
λ
j
{\displaystyle \lambda _{j}}
com
j
=
1
,
…
,
q
{\displaystyle j=1,\dots ,q}
tais que
−
∇
f
(
a
)
=
∑
i
∈
I
(
a
)
δ
i
∇
g
i
(
a
)
+
∑
j
=
1
q
λ
j
∇
h
j
(
a
)
{\displaystyle -\nabla f(a)=\sum _{i\in I(a)}\delta _{i}\nabla g_{i}(a)+\sum _{j=1}^{q}\lambda _{j}\nabla h_{j}(a)}
com
δ
i
≥
0
∀
i
∈
I
(
a
)
{\displaystyle \delta _{i}\geq 0\ \forall i\in I(a)}
.
Como
card
I
(
a
)
≤
p
{\displaystyle {\text{card}}I(a)\leq p}
, define-se
v
j
=
λ
j
,
∀
j
=
1
,
…
,
q
{\displaystyle v_{j}=\lambda _{j},\ \forall j=1,\dots ,q}
e
u
i
=
{
δ
i
∀
i
∈
I
(
a
)
0
∀
i
∉
I
(
a
)
{\displaystyle u_{i}={\begin{cases}\delta _{i}&\forall i\in I(a)\\0&\forall i\notin I(a)\end{cases}}}
Como
g
i
(
a
)
=
0
,
∀
i
∈
I
(
a
)
{\displaystyle g_{i}(a)=0,\ \forall i\in I(a)}
obtem-se
u
i
g
i
(
a
)
=
0
∀
i
=
1
,
…
,
p
{\displaystyle u_{i}g_{i}(a)=0\ \forall i=1,\dots ,p}
.
Com isso fica provado o Teorema de KKT.