Otimização/Métodos duais
Origem: Wikilivros, livros abertos por um mundo aberto.
| Otimização |
Índice |
[editar] Lagrangiana
O conceito de lagrangiana está sempre relacionado ao seguinte problema:
- Definição
A função lagrangiana associada ao problema (P) é
definida por
.
Em alguns livros é usada a seguinte notação:
definida por
e
definida por
Deste modo, a lagrangiana fica expressa por
que é uma representação bem mais compacta.
[editar] Condições de otimalidade
Para permitir a compreensão da importância da função lagrangiana em otimização, é preciso ter em mente os principais resultados que garantem a otimalidade de uma solução para o problema (P). Nas próximas seções será apresentado um breve resumo das condições de otimalidade, dividindo-as em dois casos:
- Caso particular: quando
é convexo e fechado. - Caso geral: quando C é arbitrário.
[editar] Caso particular
- Proposição
Seja f função de classe
no conjunto C. Se
é um minimizador local de f no conjunto convexo e fechado C, então:
| Demonstração |
|---|
Seja uma solução de (P), e fixe um ponto arbitrário . Denote por θ a restrição da função f sobre o segmento de reta que passa por x e por , ou seja,
Note que Como
Logo,
Mas pela regra da cadeia,
Como |
- Observação
A condição
significa que os vetores u e v formam um ângulo reto ou agudo (menor ou igual a 90 graus), conforme indicado na figura a seguir:
No caso específico, com
e
,
é a derivada direcional de f na direção
. Quando tal número é não negativo, intuitivamente a função cresce naquela direção.
Quando C é um conjunto convexo e fechado, a existência de uma solução para o problema (P) é garantida pela seguinte proposição:
- Proposição
Se
, f é convexa e
é um minimizador global de f no conjunto C (isto é,
é solução de (P)).| Demonstração |
|---|
| Pela convexidade de f, tem-se que:
Logo, Portanto, |
Até aqui, não é exigido que qualquer das funções gi ou hj sejam diferenciáveis. Isto será utilizado mais adiante, nos algoritmos.
A próxima proposição fornece uma caracterização dos minimizadores, em termos do conceito de projeção.
Lembre-se que a projeção de um ponto
sobre o conjunto C, denotada por
, satisfaz
. Na verdade, vale:
- Proposição
Seja α > 0 um número real fixado.
- Se
é um minimizador local de f em C, então 
- Se f é convexa e
, então
é um minimizador global de f em C.
| Demonstração |
|---|
| (1)
Como Observe que essa desigualdade equivale à ou ainda Tomando que equivale a dizer que (2) Reciprocamente, supor que Usando a hipótese de que f é convexa, segue da proposição anterior que |
[editar] Caso geral
Para tratar este caso, é preciso utilizar o conceito de cone tangente. O conjunto contínua o mesmo, ou seja,
, embora não seja mais suposto que ele é convexo. Mesmo assim, C ainda será fechado, pois as funções gi e hj que o definem são contínuas.
- Teorema
- Se
é um minimizador local de f em C, então
. - Se C é convexo, f é convexa e
, então
é minimizador global de f em C.
Este teorema pode ser demonstrado de forma análoga a que foi feita anteriormente.
| Demonstração |
|---|
| Esta demonstração é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo. |
Seja
definido como:
.
Pela segunda propriedade do cone tangente, tem-se:
. Logo,
Em outras palavras, se é dado um conjunto
e depois se restringe tal conjunto para C, através do acréscimo de restrições inativas em um ponto a, os cones tangentes aos dois conjuntos (no ponto a) coincidem.
- Definição
Toda condição que implica que T(a,C) = L(a,C) é chamada de condição de qualificação das restrições.
Observação: Também se pode dizer condições de regularidade das restrições (do inglês, Regularity conditions).
[editar] Exemplos de condições de qualificação das restrições
(1) Se gi e hi são funções afim-lineares, então para qualquer
, tem-se T(x,C) = L(x,C). Prova-se isso trivialmente
| Prova |
|---|
| Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo. |
(2) Condições de Slater: Se as funções gi são convexas e as hi são afim lineares e, além disso, existe
tal que
para todo i,
, então para qualquer
, tem-se T(x,C) = L(x,C).
| Prova |
|---|
| Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo. |
(3) Condições de Mangasarian-Fromowitz: Se
é linearmente independente e existe
tal que
para tpdp j e
.
| Prova |
|---|
| Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo. |
- Teorema (Karush–Kuhn–Tucker)
Suponha que f, gi e hj são funções de classe
em uma vizinhança do ponto
e que
. Se
é um minimizador local de f em C, então existem
e
tais que:
Note que aqui aparece a lagrangiana, pois a primeira condição é equivalente a:
O essencial para a existência de l(u,v) é que
.
- Teorema
Suponha-se que f, gi e hj são funções de classe
em uma vizinhança de
, que f e gi são convexas e que hj são afim-lineares. são funções de classe
. Se existem
e
tais que:
A partir deste teorema são construídos alguns algoritmos.
| Este livro tem a seguinte tarefa pendente: Confrontar as informações presentes nestes últimos teoremas com algum livro. Parece estar precisando de pequenas correções. |
Considere o seguinte problema:
Sabe-se que
dada por
.
Agora, tem-se as KKT:
- Teorema
Supondo que f,gi e hj são de classe
em uma vizinhança de
e que
, se
é um minimizador local de f em C, então
tal que
de modo que:
[editar] Uma inequação sobre ínfimos e supremos
- Teorema
Sejam
e
dois subconjuntos arbitrários e considere uma aplicação
. Então
| Demonstração |
|---|
Sabe-se que
quaisquer que sejam Assim, calculando o supremo (com relação aos valores de y), segue das desigualdades anteriores: |
- Exercício
Verifique que:
| Demonstração |
|---|
| Esta demonstração é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a neste módulo. |
Defina-se a função:
, dada por
e também
, dada por
Conforme o exercício anterior, tem-se então
Observando a relação entre essas funções, é natural considerar dois problemas de otimização:
e
- Comentários
- As funções α e β são conhecidas na literatura como funções em dualidade (ou mais frequentemente, funções duais);
- O problema (Pr) é conhecido como problema primal, enquanto (D) é chamado de problema dual;
- Fazendo
e
, segue-se do exercício anterior que
; - A diferença
é chamada de brecha de dualidade, ou salto de dualidade (do inglês, skip duality);
- Exercício
Verifique que: 
| Resolução |
|---|
Se tem-se que e .
Substituindo na lagrangeana tem-se que Por outro lado, se
Com esta escolha, a lagrangiana será
Tomando o limite quando Para o outro caso a prova é análoga. |
- Exercício
Verifique que (D) consiste de maximizar uma função côncava em um poliedro. Lembre-se:
-
- Uma função f é côncava quando − f for convexa.
- Um poliedro é qualquer intersecção finita de semiespaços fechados.
| Resolução |
|---|
Primeiro será mostrado que : , dada por é uma função côncava. Para isso, basta mostrar que para cada vale
Chamando Quanto ao conjunto ser um poliedro, isso segue do fato de |
[editar] Exemplo numérico: problema primal e seu dual
Considere o problema
| Resolução |
|---|
|
O problema é ilustrado na imagem a direita. Primeiramente, é preciso identificar quais são as funções f,gi e hj envolvidas:
Neste caso, a lagrangiana é:
Em seguida, é preciso calcular α e β:
E, conforme um dos exercícios anteriores (ou através de uma breve análise dos supremos envolvidos na expressão anterior), tem-se: Analogamente, tem-se:
Observe que em relação a x, tem-se uma função fortemente convexa, que portanto possui um único minimizador. Além disso, l é diferenciável, donde o seu único minimizador x0 é dado pela equação: ou seja,
donde Portanto, Assim, os problemas em dualidade são: e Pelo primeiro item do exercício, tem-se que a minimização do problema (Pr) é equivalente à minimização do problema original. Por outro lado, através da lagrangiana, obtem-se além do problema primal (Pr), um problema dual (D), cuja estrutura é muito melhor que a do original (pois pelo outro exercício, consiste da maximização de uma função côncava β em um poliedro), e que servirá para encontrar o mínimo do problema primal (e consequentemente, do original). |
[editar] Ponto de sela
Este é um conceito muito importante relacionado à lagrangiana.
- Definição
Dado o problema (P) e a lagrangiana l associada à esse problema, se diz que
é um ponto de sela de l se
e:
.
- Teorema
O ponto
é um ponto de sela de l se, e somente se:
é solução de (Pr);
é solução de (D);
.
| Demonstração |
|---|
Se é um ponto de sela de l, então e se tem:
Em particular, como
segue da segunda desigualdade que e calculando o ínfimo sobre todos os Por outro lado, da inequação sobre ínfimos e supremos, tem-se Logo, todos os membros das desigualdades acima coincidem, ou seja, Mas da definição de
Portanto, Reciprocamente, supondo que e admitindo que Além disso, usando como hipótese que
Em particular, tomando
Logo, pela definição de α,β tem-se:
Portanto, |
[editar] Exemplos
Considere novamente o problema de otimização dado por:
Verificar se a lagrangiana associada à (P) tem ponto de sela.
| Resolução |
|---|
|
O problema é ilustrado na imagem a direita, e conforme foi deduzido anteriormente, tem-se: Além disso, como foi mostrado anteriormente, vale e também ou seja, Agora, consideram-se os seguintes problemas em dualidade: e Donde Intuitivamente, nos pontos em que Mas pela desigualdade a respeito de supremos e ínfimos, tem-se Como Finalmente, como |
[editar] Análise do problema
Considerando (P), (Pr), (D) e l, se
é uma solução do problema dual, considere o seguinte problema:
que no caso do exemplo reduz-se a
A solução deste problema é obtida resolvendo 2x − 2 = 0, sendo portanto x = 1. Note que esta é a solução do problema primal (Pr) (e consequentemente do problema original (P)).
Será apenas uma coincidência? Ou ainda, em que situações a solução deste último problema será também solução do problema original?
A resposta será dada pelo próximo teorema. Acompanhe.
- Teorema (dualidade lagrangiana convexa)
Suponha-se que
são de classe
e convexas, e que as funções hj são afim lineares e
. Nestas condições:
- Se o problema (P) tem solução, então
e os problemas (Pr) e (D) têm solução. - Se (P) tem solução, e
é solução de (D), então as soluções de (Pr) são as soluções de
, onde
Antes da demonstração, vale a pena imaginar a seguinte aplicação da segunda parte do teorema: Se por alguma razão não se sabe resolver o problema original (P), pode-se optar por resolver (D) (um problema concavo em um poliedro), e depois resolver
(que é um problema convexo sem restrições). Em outras palavras, é possível trocar um problema difícil por dois problemas mais fáceis, (D) e
.
Agora a demonstração do teorema:
| Demonstração |
|---|
(1) Como (P) tem solução, seja uma solução de (P). Pelo teorema de KKT (que se aplica pois as funções são de classe e se tem a qualificação das restrições), segue a existência de e , tais que:
Como f,gi são funções convexas e hj afim lineares, então a função lagrangiana
Usando (1), conclúi-se uma das duas desigualdades que definem um ponto de sela em
Considerando que pois Mas, por KKT, Logo: Assim, quaisquer que sejam Logo, (2)Seja Seja
Uma vez que As soluções deste problema são soluções de (Pr) e, consequentemente, do problema original. |
- Exercício
Verificar se existe salto de dualidade nos problemas em dualidade para o seguinte problema de minimização:
- Exercício
Juntamente com o problema (P1) do exercício anterior, considere o seguinte problema:
- Exercício
Experimente escolher
e uma transformação linear, e um poliedro (intersecção finita de semi-espaços). É difícil de resolver o problema primal. Tente resolver o dual, usando os métodos conhecidos.
A seguir será apresentada uma proposição que responde a uma pergunta deixada anteriormente:
- Proposição
Considere o problema (P) a lagrangiana l e os problemas em dualidade (Pr) e (D) e
soluções de (D). Se
é solução do problema
(o conjunto dos pontos que satisfazem as restrições) e
, então
é também uma solução do problema (P).Tal proposição fornece um roteiro para quem precisa resolver o problema (P) relativamente difícil:
- Primeiramente, resolve-se (D);
- Depois, constrói-se o problema
e encontra-se uma solução
para o mesmo; - Finalmente, se
satisfaz as últimas condições da proposição, ele é também uma solução de (P).
| Demonstração |
|---|
Se é uma solução de (D), . Então, pela definição de , tem-se:
Como ou seja, Portanto, Por outro lado, como Por hipótese, Logo,
Então para quaisquer que sejam
quaisquer que sejam Portanto, |
[editar] Resumo do esquema de dualidade
Neste ponto, pode-se sintetizar a estratégia geral para a resolução de problemas de otimização utilizando esquemas de dualidade.
Considere o problema
onde
são funções de classe
, e seja a lagrangiana
definido por
.
Convenciona-se que:
- x é a variável primal;
- (u,v) é a variável dual;
Nesse sentido, "o
é o dual de
" (não confundir com o significado que essa expressão teria na análise funcional. Ver nota sobre a terminologia), ou seja:
é onde "mora" a variável primal x;
é onde "mora" a variável dual (u,v);
Definem-se então as funções α e β da seguinte maneira:
, dada por
e
, dada por
A partir destas duas funções, formulam-se os seguintes problemas duais:
e
É possível verificar que (Pr) equivale ao problema original (P) e que (D) consiste da maximização de uma função côncava em um poliedro (convexo).
Logo, o dual de (P) é (D).
[editar] Conclusões
Dado qualquer problema (P), seu dual (D) é um problema côncavo (isto é, a função objetivo é côncava), tal que os pontos satisfazendo o conjunto de restrições formam um poliedro convexo.
Apesar da controvérsia filosófica existente acerca do nome destes conceitos (coisa que poderia muito bem vir a ser alterada no futuro), a moral da história é que "transforma-se um problema geralmente difícil (sem estrutura) em um problema mais fácil (cheio de estrutura)".
[editar] Uma nota sobre a terminologia
Na subárea da matemática denominada Análise Funcional, quando se tem um espaço topológico X, costuma-se chamar de dual topológico ao conjunto
.
Aparentemente, os conceitos de dual da otimização e da análise funcional não tem relação um com o outro.
Um dos primeiros a falar de dualidade (espaços duais) foi o francês Fenchel, mas foi fortemente criticado por Urruty e Lemaréchal, pois os dois conceitos de dualidade não estão relacionados. Também o francês Brezis concordou que há um problema a ser resolvido com a nomenclatura, e um dos conceitos deveria deixar de ser chamado assim.



, com
.
.
, para todo
, ou seja, 
, então
.
sempre forma ângulo menor ou igual a 90 graus com os vetores do tipo 

, ou seja, 
forma ângulo menor que 90 graus com o vetor
, pois
é a projeção de 

e
, tem-se a equivalência com:
, ou seja:














,
. Então, calculando o ínfimo em ambos os membros (com relação aos valores de
:




e
.
e tomando
existe um índice
e/ou
, onde
tem-se que
.
vale
.
e
tem-se:![\begin{align}
\beta(\bar{u}, \bar{v})& = \inf_{x \in \mathbb{R}^n} l(x, ta+(1-t)b, tc+(1-t)d)\\
& = \inf_{x \in \mathbb{R}^n} f(x)+(ta+(1-t)b)^{\top}g(x)+(tc+(1-t)d)^{\top}h(x)\\
& = \inf_{x \in \mathbb{R}^n} f(x)+ta^{\top}g(x)+(1-t)b^{\top}g(x)+tc^{\top}h(x)+(1-t)d^{\top}h(x)\\
& = \inf_{x \in \mathbb{R}^n} tf(x)+(1-t)f(x) +ta^{\top}g(x)+(1-t)b^{\top}g(x)+tc^{\top}h(x)+(1-t)d^{\top}h(x)\\
& = \inf_{x \in \mathbb{R}^n} t[f(x)+a^{\top}g(x)+c^{\top}h(x)]+(1-t)[f(x)+b^{\top}g(x)+d^{\top}h(x)]\\
& = \inf_{x \in \mathbb{R}^n} tl(x, a, c)+(1-t)l(x, b, d)\\
& \ge \inf_{x \in \mathbb{R}^n} tl(x, a, c)+\inf_{x \in \mathbb{R}^n} (1-t)l(x, b, d)\\
& = t\inf_{x \in \mathbb{R}^n} l(x, a, c)+(1-t)\inf_{x \in \mathbb{R}^n} l(x, b, d)\\
& =t\beta(a, c)+(1-t)\beta(b, d).
\end{align}](http://upload.wikimedia.org/math/c/0/2/c027c5ca29e8775e987af993bf38d7a6.png)
e
serem interseções finitas de semiespaços fechados.
;
e
, conclúi-se que as funções
e
.
, dado por![\alpha(x) = \sup_{\begin{smallmatrix}u_1 \ge 0\\u_2 \ge 0\end{smallmatrix}} [x^2 + u_1 (1-x) + u_2 (x-2) ] = x^2 + \sup_{u_1 \ge 0} [ u_1 (1-x) ] + \sup_{u_2 \ge 0} [ u_2 (x-2) ]](http://upload.wikimedia.org/math/0/3/3/03321bae6c7e637c9372a40902445870.png)
![\alpha(x) = \left\{\begin{matrix}
x^2 & , \text{ se } x \in [1, 2]\\
+\infty & , \text{ se } x \not\in [1, 2]
\end{matrix}\right.](http://upload.wikimedia.org/math/7/7/7/777902e6d0bf0506165d7d4cad3fc14f.png)
, dada por![\beta(u_1, u_2) = \inf_{x \in \mathbb{R}^n} [x^2 + u_1 (1-x) + u_2 (x-2) ]](http://upload.wikimedia.org/math/0/7/e/07eebe207cdcccd241dcc69a3bc52e30.png)




.
tem-se:
, então 
tem-se:

, quaisquer que sejam
.
,
e
, resulta:
, ou seja,
, quaisquer que sejam 


![\begin{align}
\beta(u, v) & = \frac{1}{4} ( [u_1^2 + u_2^2 - 2u_1u_2] + [4u_1 - 2u_1^2 + 2 u_1 u_2] + [2u_1u_2 - 2u_2^2 - 8u_2])\\
& = \frac{-1}{4} ( u_1^2 + u_2^2 - 2u_1u_2 - 4u_1 + 8u_2)\\
& = \frac{-1}{4} ( (u_1 - u_2)^2 - 4(u_1 - u_2)) - u_2\\
& = \frac{-1}{4} ( (u_1 - u_2)^2 - 4(u_1 - u_2) + 4) + 1 - u_2\\
& = \frac{-1}{4} (u_1 - u_2 - 2)^2 + 1 - u_2
\end{align}](http://upload.wikimedia.org/math/0/5/d/05d5e825636d1809026b24fc2337fdf6.png)
é solução do problema primal, e
.
assumir seu valor máximo, deve-se ter
, quaisquer que sejam
,
.
, e ao tomar
é uma solução do problema dual
, e
, segue que
é ponto de sela da lagrangiana 

e
, tais que:
é convexa em
.
.
, segue que:
e
.
. Além disso,
.

, 


. Então, pela definição de
, tem-se:



, então
e
. Consequentemente,
, ou seja,
,