Otimização/Imprimir
Situação inicial
Embora se possa trabalhar com mínimos e máximos, ao longo dos próximos capítulos só trabalharemos com mínimos, pois achar o máximo de uma função
é equivalente a achar o mínimo da função 
[editar] Mínimo global
Sejam
e
Para encontrarmos o mínimo global, devemos encontrar o 
- Definição
Dizemos que um ponto
é mínimo global, se 
[editar] Máximo global
Seja
e
Para encontrarmos o máximo global, devemos encontrar o 
- Definição
Dizemos que um ponto
é máximo global, se 
[editar] Mínimo local
Seja
e
Para encontrarmos o mínimo local, devemos encontrar o 
- Definição
Dizemos que um ponto
é mínimo local, se
onde 
[editar] Máximo local
Seja
e
Para encontrarmos o máximo local, devemos encontrar o 
- Definição
Dizemos que um ponto
é máximo local, se
onde 
[editar] Exemplos
Seja
tais que 
[editar] Exemplo 1
Mostrar que 
Afirmação:
e 
Prova1: Tome 
Prova2: Suponha por contradição que
Mas
Logo
Contradição! A contradição foi supor que 
Portanto, 
[editar] Exemplo 2
Seja
tais que
Seja 
Mostrar que 
Suponha por contradição que
tal que
Por
Logo
Contradição! A contradição foi supor que
tal que
Portanto 
Existência de soluções globais
- Definição
é o conjuntos dos minimizadores de f em D, locais e globais.
- Definição
Dizer que
significa que o conjuntos dos minimizadores de f em D possui um mínimo e ele é global.
- Definição
Seja
, onde
é chamado valor ótimo do problema e é um mínimo global.
[editar] Teorema de Weierstrass
Seja
contínua em D compacto.
[editar] Então 
Suponha que f é ilimitada inferiormente, então
. Por outro lado, D é compacto e
. Como D é limitado, logo a
é limitada. Toda sequência limitada possui uma subsequência convergente. Assim
possui uma subsequência convergênte
, tal que
. Assim
. Absurdo.
, pela definição de ínfimo, dado
tal que
.
[editar] Curva de nível 
- Definição
Seja 
[editar] Corolário da curva de nível compacta
Sejam
contínua em D. Se
é compacto.
[editar] Então 
Prova: Pelo Teorema de Weierstrass
, isto é,
).
[editar] Projeção de y sobre D
- Definição

[editar] Corolário da projeção de y sobre D
é fechado.
[editar] Então 
Tome
. É facil ver que
. Agora dado
. Assim
é contínua.
Por outro lado,
. Visto que
são fechados, temos que
é também fechado. Além disso, sendo
limitado, segue que
é também limitado e conseqüentemente compacto. Como
é compacto.
Vimos que
é contínua e
é compacto.. Tomando-se
suficientemente grande, de tal forma que
. Pelo corolário da curva de nível,
.

[editar] Exemplo
Seja
e 
[editar] Mostrar que
.
Suponhamos que
é ilimitado para um
tal que
. Se
, isto é, dado
. (...)
Condições de otimalidade para problemas sem restrições
| Esta página é somente um esboço. Ampliando-a você ajudará a melhorar o Wikilivros. |
[editar] Teorema
[editar] Mostrar que 
[editar] Teorema
é duas vezes diferenciável em
e

[editar] Mostrar que
e 
[editar] Teorema
é duas vezes diferenciável em
,
e 
[editar] Mostrar que

Elementos de análise convexa
| Esta página é somente um esboço. Ampliando-a você ajudará a melhorar o Wikilivros. |
[editar] Convexo
- Definição
Dizemos que um conjunto
é convexo quando
, onde
é a combinação convexa de
.
[editar] Teorema
Sejam
um conjunto convexo e uma função diferenciável em
. Seja também
.
[editar] 
[editar] Função Convexa
Seja 
- Definição
Dizemos que uma função f é convexa se
.
- Definição
Dizemos que uma função f é estritamente convexa se
.
- Definição
Dizemos que uma função f é
fortemente convexa se
.
- Definição
Dizemos que o epígrafo da função f é
.
[editar] Teorema
Seja
um conjunto convexo.
[editar] Mostrar que f é convexo
é convexo
[editar] Teorema da minimização convexa
Seja
ambos convexos.
[editar] Mostrar que se

[editar] Mostrar que
é convexo
[editar] Mostrar que se f é estritamente convexa, então
é convexo
[editar] Função Concava
- Definição
Uma função
é chamada concava se
é convexa em
convexa, onde 
Conjuntos convexos
| Esta página é somente um esboço. Ampliando-a você ajudará a melhorar o Wikilivros. |
[editar] Intersecção de conjuntos convexos é convexo
Sejam
conjuntos convexos, onde 
[editar] Mostrar que
é um conjunto convexo
[editar] Conjunto Poliedral
- Definição
Um conjunto é poliedral se é a intersecção de hiperplanos e semi-espaços
[editar] Um conjunto poliedral em
é convexo
[editar] O fecho e o interior de um conjunto convexo são convexos
[editar] A soma de convexos fechados é convexo e fechado
Sejam
, conjuntos convexos e fechados. Um deles é limitado.
[editar] Mostrar que
é um conjunto convexo e fechado
[editar] Combinação convexa de p pontos
- Definição
Seja
. A combinação convexa dos
é o ponto
[editar] Teorema da combinação convexa
Um conjunto
é convexo se, e somente se, a combinação convexa
,
,
[editar] Desigualdade de Jensen
Sejam
um conjunto convexo e
uma função convexa, 
[editar] Mostrar que 
[editar] Teorema de Carathéodory
Seja
uma combinação convexa de pontos do conjunto
.
[editar] Mostrar que 
[editar] Fecho convexo
- Definição
O fecho convexa de um conjunto qualquer D é o menor conjunto convexo que contem D e simbolizado por conv D.
- Definição
O conjunto de todas as combinações convexas de pontos de D, simbolizaremos por
.
[editar] Corolário de um fecho convexo
Se 
[editar] Mostrar que conv D = comb D
[editar] Corolário da compacidade do conv D
Seja
compacto
[editar] Mostrar que conv D é compacto
Operador de projeção
[editar] Teorema da projeção
Seja
um conjunto convexo e fechado.
[editar] Mostrar que
e é única
[editar] Mostrar que 
[editar] Teorema do ponto minimizador projetado
Sejam
um conjunto convexo e fechado, e
um função diferenciável no ponto
. 
[editar] Mostrar que 
Funções convexas
[editar] Convexidade da soma de funções convexas
Sejam
um conjunto convexo e
funções convexas em D. 
[editar] Mostrar que a função
é convexa em D
[editar] Corolário de convexidade do supremo de funções convexas
Sejam
um conjunto convexo e
funções convexas em D. 
[editar] Mostrar que a função
é convexa em D
[editar] Corolário: Função composta de duas convexas é convexa
Sejam
uma função convexa e
um função convexa e nãodecrescente.
[editar] Mostrar que
é convexa
[editar] Corolário: Convexidade de conjunto de nível de funções convexas
Suponhamos que o conjunto
seja convexo e a função
seja convexa em D.
[editar] Mostrar que
é convexo para todo 
[editar] Uma função é convexa se os vetores coordenadas são funções convexas
- Definição
Seja
um conjunto convexo. Se todas as funções
são convexas em D, então
é convexa em D
Introdução
Este material está sendo elaborado com base nas notas de aula da disciplina Otimização II, do curso de Matemática Industrial oferecido pela UFPR, ministrada pelo professor Wilfredo, no segundo semestre letivo do ano de 2008.
O conteúdo do livro não precisa (nem deve) se limitar àquele que consta atualmente no índice. Sendo assim, a qualquer momento o livro pode ser revisto e ampliado.
Sinta-se a vontade para ler este ou quaisquer outros livros do projeto, melhorando-os conforme lhe for possível. Com isso estará ajudando a aumentar a quantidade e a qualidade dos textos didáticos disponíveis em língua portuguesa, ao mesmo tempo em que colaborará com o crescimento projeto Wikilivros como um todo.
Se tiver dúvidas ou sugestões sobre páginas específicas, utilize as páginas de discussão correspondentes para deixar um comentário a respeito.
Ainda há muito por fazer, mas cada um daqueles que contribuem acredita estar fazendo o possível para oferecer o melhor a todos.
Método de gradientes conjugados
[editar] Algumas considerações históricas
- Este método foi originalmente proposto por Hestenes e Stiefel, em 1952.
- Seu objetivo inicial foi a resolução de problemas quadráticos sem restrições, mas logo o mesmo foi estendido para casos mais gerais.
[editar] O método
Este método pode ser considerado sob dois pontos de vista:
- Como um método de descida, com busca linear exata;
- Como um método de resolução de sistema linear, baseado em um processo de ortogonalização.
- Definição
Um conjunto não vazio
é dito convexo quando
e
vale
[editar] Exemplos de conjuntos convexos e côncavos
- Definição
Uma função
é dita convexa quando
é convexo e
e
vale
- Definição
Dado um conjunto convexo
, uma função
é dita fortemente convexa quando existe uma constante
tal que
é convexa.
- Exercício
Verifique que uma função quadrática
é fortemente convexa se existe uma matriz simétrica definida positiva
, um vetor
e um escalar
de modo que
.
| Resolução |
|---|
Sendo uma função quadrática, tem-se . A matriz pode ser suposta simétrica, pois caso não seja, toma-se (simétrica), e segue (verifique).
Além disso, se |
Nota: Uma matriz é definida positiva se, e somente se, todos os seus autovalores são positivos.
Tem-se:
Sendo
, segue em particular que
e
, onde
é uma matriz diagonal cujos elementos da diagonal são os autovalores de
e
é uma matriz onde as colunas são os autovetores correspondentes aos autovalores.
Note que
é uma matriz simétrica, pois é a matriz Hessiana de uma função com segundas derivadas parciais contínuas, e consequentemente vale
.
Para introduzir o método de direções conjugadas, serão consideradas somente funções quadráticas.
Uma condição necessária de primeira ordem para que
seja um ponto de mínimo para a função
é que
. Para o presente caso, a função
é convexa, então, a condição necessária
também é suficiente.
- Exercício
Prove que se
é uma matriz simétrica definida positiva, então
dada por
possui um único ponto de mínimo.
| Resolução |
|---|
Uma vez que é simétrica definida positiva, a função é fortemente convexa. Mas toda função fortemente convexa, definida em um conjunto fechado não vazio possui um único minimizador, pois:
Em particular, |
No caso de uma função quadrática, tem-se
, ou seja,
é solução do sistema linear
.
A resolução de um sistema linear nem sempre pode ser feita numericamente de forma eficiente. Por exemplo, se a matriz do sistema é:
A solução do sistema linear corresponde à interseção entre duas retas quase paralelas, e os erros de truncamento podem causar imprecisão na solução obtida computacionalmente.
Analiticamente, o sistema
tem
como solução. Então alguém poderia se perguntar: qual o problema em resolver esse sistema linear, se basta calcular a inversa da matriz
e multiplicar pelo vetor
? A resposta é que o calculo da inversa de uma matriz em geral é impraticável computacionalmente, por ter custo muito alto. Por isso, nas situações práticas, onde as matrizes tem ordem bem maior do que 2 (digamos 1000), o cálculo de matrizes inversas não é uma opção.
Assim, com o intuito de desenvolver um método computacional para o cálculo de minimizadores, é preciso utilizar outras técnicas. Considere o seguinte:
Em um método de descida tem-se sempre uma sequencia
, com
e
é um minimizador de 
e
Logo,
e multiplicando por
obtem-se
. Consequentemente, o valor de
é dado por
Deste modo, o método consistirá de escolher em cada etapa
uma direção
, e calcular o coeficiente
pela fórmula anterior, para gerar o próximo ponto
. Mas como escolher a direção
?
Dado
e escolhido
, defina
como
, ou seja,
é a restrição da função
à reta que passa pelo ponto
e que tem direção
. Logo, derivando a expressão de
em relação a
, obtem-se
Então, no ponto de mínimo,
, tem-se
Ou seja, a direção
a ser seguida a partir do ponto
é ortogonal ao gradiente da função
, no ponto
.
[editar] Esquema do método de descida
Seja
o minimizador da função
. Tem-se
Mas
implica que
, logo
e consequentemente
Donde
. Portanto
.
- Exercício
Provar que se
é uma matriz simétrica, definida positiva, então existe uma matriz simétrica
, de modo que 
| Resolução |
|---|
Sendo uma matriz simétrica, tem-se , com unitária e
Logo |
Usando o resultado desse exercício, tem-se ainda que 
Fazendo
, o método do gradiente conjugado escolhe as direções de descida tais que
. Mas quando
, tem-se na expressão apresentada anteriormente apenas 
Finalmente, tem-se o algoritmo para este método.
[editar] Algoritmo de Hestenes-Stiefel
Primeiro passo: EscolhaSe
, então pare:
Senão:
Calcular
![]()
Passo iterativo
: Dado
Se
, então pare:
Senão:
![]()
![]()
![]()
Pode-se verificar facilmente que
. De fato, como
, tem-se
. Logo,
.
- Exercício
Provar que se
então
.
| Resolução |
|---|
| Tem-se
Multiplicando ambos os membros por
ou seja,
somando
Então Sendo a última igualdade devida ao fato de |
[editar] Exemplos
Considere
definida por
. Em outros termos, tomando
, tem-se
, onde
.
Pode-se aplicar o método de direções conjugadas ao seguinte problema
Note, desde já, que o conjunto solução é
.
- Inicio
- Toma-se
arbitrário, por exemplo,
. - Avalia-se o gradiente da função
neste ponto inicial: 
- Iteração 1
A seguir, verifica-se se o gradiente se anula no novo ponto
:
Como o gradiente já é nulo, não é preciso fazer a segunda iteração, e o ponto
é o (único) minimizador global de
.
Em um caso mais geral, considerando
definida por
, tem-se cálculos muito parecidos em cada passo.
O conjunto solução continua sendo
.
- Inicio
- Considere
como no primeiro exemplo, ou seja,
. - Avalia-se o gradiente da função
neste ponto inicial: 
- Iteração 1
A seguir, verifica-se se o gradiente se anula no novo ponto
:
Novamente, o gradiente se anula já na primeira iteração, de modo que
é o minimizador global de
.
- Exercício
Seja
uma matriz simétrica definida positiva, cujos autovalores são todos iguais. Então começando de qualquer ponto
, o método fornece
como solução.
Um terceiro exemplo pode ser dado tomando
e
definida por
. Observe que tal matriz é simétrica e definida positiva:
Logo, os autovalores de
são
e
. Isso também implica que a função é fortemente convexa.
Aplicando o método:
- Início
- Toma-se um ponto arbitrário no plano, por exemplo
; - Verifica-se se tal ponto é o minimizador global, avaliando nele o gradiente da função:
.
- Já que o gradiente não se anulou no chute inicial, é preciso escolher uma direção e um comprimento de passo para determinar a próxima aproximação:
- Iteração 1


Feitos esses cálculos, o próximo ponto é dado por
Para saber se será necessária uma nova iteração, ou se o minimizador foi encontrado, calcula-se o gradiente da função no ponto:
.
Novamente, será preciso calcular uma nova direção e um novo comprimento de passo:
- Iteração 2

onde
, no algoritmo de Hestenes é dado por:
Portanto
Além disso, o tamanho do passo é dado por
Portanto
Obviamente, este é o minimizador procurado (pois o método tem a propriedade de convergência quadrática, ou seja utiliza no máximo
iterações para chegar a solução quando aplicado a funções quadráticas definidas em
)
- Exercício
Implementar o algoritmo de Hestenes-Stiefel em alguma linguagem de programação, por exemplo em Scilab, ou Matlab.
- Exercício
Seja
um função quadrática fortemente convexa. Verifique as seguintes igualdades:
[editar] Implementação em Scilab
Abaixo é apresentada uma implementação deste algoritmo na linguagem de programação utilizada pelo Scilab.
A = [2 1; 1 2]; function [x] = min_gradiente_conjugado(xk) //Entrada: xk em R^n, qualquer "chute inicial" // Saída: x, o ponto em que f assume o valor mínimo k = 0 //Indica quantos loops já foram feitos epsilon = 0.01 n = size(xk,1) g = df(xk) seq = zeros(n,n+1) seq(:,1) = xk while (norm(g) > epsilon) & (k <= n) if (k == 0) d = -g else d = Hestenes(g,d,A) end t = busca_linear(g,d,A) xk = xk + t*d k = k+1 seq(:,k+1) = xk g = df(xk) end plot(seq(1,:),seq(2,:)) x = xk endfunction function [fu] = f(u) fu=(1/2)*(u'*A*u) endfunction function [grf] = df(u) grf = A*u endfunction function [d] = Hestenes(g,d,A) d=-g + ((g'*A*d)/(d'*A*d))*d endfunction function [t] = busca_linear(g,d,A) t=(g'*g)/(d'*A*d) endfunction
Para facilitar a compreensão do método, pode ser útil exibir as curvas de nível da função. Uma forma de implementar uma função com esse propósito é a seguinte:
function plotar_curvas qtd=101 tam=max(seq) x=linspace(-tam,tam,qtd) y=x z=zeros(qtd,qtd) for i=1:qtd for j=1:qtd z(i,j)=f([x(i);y(j)]) end end contour2d(x,y,z,10) a=gca(); a.x_location = "middle"; a.y_location = "middle"; endfunction
[editar] Algoritmo de Fletcher-Reeves
| Um dos autores deste material sugeriu a adição de uma imagem para ilustrar o método de Fletcher-Reeves. |
Esta versão é na verdade uma extensão do algoritmo anterior, permitindo a aplicação no caso de funções que não são quadráticas.
Primeiro passo: EscolhaSe
, então pare:
Senão:
(como em todo método de descida) Calcular
, através de uma busca linear
Passo iterativo: Se
, então pare:
Senão:
Calcular
, através de uma busca linear
![]()
![]()
| Um dos autores deste material sugeriu a adição de uma implementação do algoritmo acima em SciLab. |
[editar] Algoritmo de Polak-Ribière
| Um dos autores deste material sugeriu a adição de uma imagem para ilustrar o método de Fletcher-Reeves. |
Uma outra versão é a seguinte:
Primeiro passo: TomarSe
, então pare:
Senão:
(como em todo método de descida) Calcular
, através de uma busca linear
![]()
Passo iterativo: Se
, então pare:
Senão:
Calcular
, através de uma busca linear
![]()
![]()
| Um dos autores deste material sugeriu a adição de uma implementação do algoritmo acima em SciLab. |
- Exercício
Verificar que, no caso de uma função
quadrática e fortemente convexa, os algoritmos de Hestenes-Stiefel, de Fletcher-Reeves e de Polak-Ribière são os mesmos.
- Exercício
Seja
. Implemente o método de gradientes conjugados, e utilize o algoritmo para determinar o ponto de mínimo da função
. Note que o espaço é unidimensional, então o método de gradientes conjugados reduz-se ao método dos gradientes, com primeira direção
. Observe ainda que
é uma função coerciva fortemente convexa.
[editar] Algoritmo auxiliar
Para o caso de funções não quadráticas, é preciso usar algum método de busca linear para a implementação do método dos gradientes conjugados, seja a versão de Fletcher-Reeves ou a de Polak-Ribière. Uma possibilidade é a busca de linear de Armijo (ver Izmailov & Solodov (2007), vol 2, pag. 65), cujo algoritmo é esboçado a seguir:
function busca_linear_Armijo (f, theta, alpha, delta, t0) while (alpha * pred > ared) t = d * t end endfunction
com:
| Implementar a regra de Armijo e corrigir o esboço acima. |
Métodos de penalidades
Os métodos que recebem este nome fazem parte de uma família de métodos baseados em:
- Simplicidade conceitual;
- Eficiência prática;
Algumas das primeiras funções de penalidade foram desenvolvidas por:
- Courant (1943)
- Ablate Brighham (1955) (qual o artigo?)
- AV Fiacco, GP McCormick (1968) (qual o artigo?)
Para compreender este tipo de método, será considerado o seguinte problema:

Adicionalmente, se for considerado o conjunto de pontos
, o problema (P) se escreve ainda como

Uma primeira idéia para a resolução desse tipo de problema é fazer uso de funções indicadoras, conforme é definido a seguir:
- Definição
Dado um conjunto não vazio
, define-se a função indicadora
por:
Notas: A função indicadora
é às vezes denotada por
.
Para transformar um conjunto (P) em um problema sem restrições, pode-se proceder da seguinte maneira: Considerar o problema (PD), dado por:

Considerando
definida por:
Tem-se ainda o problema (PP), dado por:

Comentários:
- A grande vantagem desta idéia é que ela transforma um problema com restrições em um problema irrestrito.
- A principal desvantagem é que a função
definida a seguir é descontínua em cada ponto
:
[editar] Método de penalidade exterior
Para contornar a desvantagem da descontinuidade da função apresentada anteriormente, surgem outras funções, como por exemplo:
- Definição
Dada uma função
, definida em um conjunto arbitrário
, define-se a parte positiva de
, como:
Um dos autores deste material sugeriu a adição de uma imagem para comparar uma função e sua correspondente . |
- Exercício
Verifique que para cada
tem-se, para cada
, a igualdade
, onde
é a parte positiva de
e
é a função definida no exemplo anterior.
| Resolução |
|---|
De fato, dada qualquer função , segue da própria definição de que
Mas implica que Portanto, |
- Exercício
Verifique que para cada
tem-se, para cada
, a igualdade
.
Um dos autores deste material sugeriu conferir o enunciado do exercício anterior. A afirmação parece ser falsa nos casos em que . |
A idéia de aplicar penalizações aos pontos que não pertencem ao conjunto viável é formalizada na seguinte definição:
- Definição
Seja
. A função
é chamada de função de penalidade exterior se possui as seguintes propriedades:


é contínua
Nota: Lembre-se que
é o conjunto viável do problema (P).
Em particular, as funções
são funções de penalidade exterior.
- Definição
Seja
. A função
é dita coerciva se 
| Um dos autores deste material sugeriu a adição de exemplos de funções de penalidade, juntamente com algumas imagens ilustrando os seus gráficos. |
Nota: Conforme o Wikcionário, o termo coercivo significa: que coage; que reprime; que impõe pena; coercitivo. Nesse sentido, esse é um termo adequado ao tratar do conceito anterior, no contexto dos métodos de penalidade.
- Exercício
Verifique que
é uma função coerciva se, e somente se,
é limitado para todo
.
| Resolução |
|---|
| Pela definição de limite, a afirmação
é equivalente a dizer que
Esta última implicação, é equivalente à
Pela definição de conjunto de nível, isso equivale à |
| Um dos autores deste material sugeriu a adição de uma imagem que ilustre geometricamente a relação entre coercividade e conjuntos de nível. |
- Exercício
Verifique que
definida por
é uma função de penalidade exterior, onde conforme anteriormente,
é a parte positiva de
.
| Resolução |
|---|
Primeiramente, é uma função não negativa, pois o quadrado de qualquer número real é não negativo, assim como a soma de números reais não negativos.
Em segundo lugar, tem-se Finalmente, como a soma e o produto de funções contínuas resulta em uma função contínua, segue que |
- Exercício
Verifique que se
é uma função contínua coerciva, então existe
tal que
.
| Resolução |
|---|
Considere um ponto arbitrário . Tome . Nestas condições, é limitado (conforme um dos exercícios anteriores) e fechado (pois é pré-imagem de um conjunto fechado por uma função contínua), portanto compacto. Neste caso, conforme o teorema de Weierstrass, a função possui algum ponto de mínimo no conjunto , ou seja, existe tal que .
Ne verdade, tal ponto |
| Um dos autores deste material sugeriu a adição de uma imagem ilustrando a existência de minimizadores globais para funções coercivas. |
[editar] Alguns conceitos da topologia
Em algumas situações, é interessante ter em mente que certos conceitos definidos no contexto da Otimização são, na verdade, instanciações de conceitos mais gerais, muitos deles provenientes da topologia. Alguns exemplos são apresentados a seguir.
- Definição
Dado um conjunto
, uma coleção
de subconjuntos de
é chamada de topologia se:
- Exemplos
- Topologia euclidiana:
Em outras palavras, a topologia euclideana é a coleção de todos os conjuntos abertos contidos em
. Pode-se verificar com facilidade que de fato são satizfeitas as três propriedades que definem uma topologia.
Outro exemplo muito comum é o seguinte:
- Topologia euclideana estendida:
Em geral, a noção de limite seria caracterizada topologicamente da seguinte forma:
- Definição

[editar] De volta ao método
Uma vez apresentados os conceitos iniciais, pode-se provar o seguinte teorema:
- Teorema
Considere:
uma função de penalidade exterior;
uma função contínua;
um conjunto fechado;
uma sequência de termos positivos tal que
.
é coerciva.
é limitado e
é coerciva.
, for escolhido
,então:
possui algum ponto de acumulação;- Todo ponto de acumulação de
é solução do problema (P);
.
| Um dos autores deste material sugeriu a adição de uma imagem que ilustre geometricamente o significado do teorema acima. |
| Demonstração |
|---|
Se (1) acontece, então é coerciva, pois
A desigualdade é válida pois , para qualquer Mas Por outro lado, se vale (2), então Em ambos os casos, dada uma sequência Sendo que a primeira desigualdade se deve ao fato de Além disso, tem-se as seguintes desigualdades: Logo, somando os membros correspondentes, obtem-se: ou seja, Portanto, Por outro lado, Se a primeira das hipóteses acontece, segue da coercividade e dessa última desigualdade que Se ocorre a segunda, então Portanto, em qualquer caso, Seja A sequência Como Logo, |
- Exercício
Dado o problema (P), considere
(isso não quer dizer que o problema tenha solução). suponha-se que
e
são funções contínuas e que
seja não vazio, ou seja, que
é factível. Tome
como
, onde
denota a parte positiva de
, como de costume. Considere ainda
dada por
e, para cada
, seja
Nessas condições, provar que:
é uma função de penalidade exterior

- Se
então 
- Se
são covexas, então
é convexa. - Se
são diferenciáveis, então
é diferenciável em
, e 
- Se
e
e se
é uma sequência tal que
e
então
é solução de (P).
[editar] Algoritmo de penalidade exterior
Primeiro passo: Escolha,
e
Passo iterativo
: Calcular
, solução global de
Escolha
tal que
![]()
Nota: Neste algoritmo,
é uma função de penalidade exterior.
- Exercício
Sejam
e
. Considere o problema:
Utilize o método de penalidade exterior para determinar o ponto de mínimo da função
sobre o conjunto
.
| Resolução |
|---|
Esboço: Pode-se tomar , onde:
Tem-se então o problema irrestrito: |
[editar] Implementação do algoritmo de penalidade exterior em SciLab
Considerando o problema
com
uma função quadrática,
simétrica positiva definida,
lineares, e a função de penalidade,
, dada por:
Pode-se usar o método dos gradientes conjugados para resolver o seguinte problema:
onde
terá sua matriz Hessiana definida positiva.
| Incluir o código para uma implementação do método em SciLab. |
[editar] Método de penalidade interior
Este método também é conhecido como método de barreira. Ele consiste em trabalhar com funções de penalidade tais que
e qualquer que seja a sequência
para a qual
, se tem que a função de penalidade tende a
.
Mas como conseguir esse tipo de função?
[editar] Exemplos
Considere o caso em que
. Lembrando que a função logarítmica tem a propriedade:
pode-se tomar
, pois
implica que
Analogamente, tem-se
então, uma outra função com a propriedade desejada é
.
O problema a ser resolvido quando se quer aplicar o método de barreira é o seguinte:
onde
é tal que 
Observação:
não é necessariamente igual ao interior do conjunto
. Por exemplo:
| Um dos autores deste material sugeriu a adição de uma imagem para ilustrar um conjunto C cujo correspondente C0 seja diferente do interior de C. |
- Definição
Se diz que uma função
é uma função de barreira se ela possui as seguintes propriedades:
é limitada inferiormente em
.- Para qualquer sequência
tal que
vale 
é contínua
[editar] Algoritmo de barreira
Primeiro passo: Escolha,
e
Passo iterativo
: Calcular
, solução global de
Escolha
tal que
![]()
Observação: Neste método os termos da sequência
estão sempre em
.
[editar] Implementação do algoritmo de barreira em SciLab
Considerando o problema
pode-se usar o método de barreira no conjunto:
Pode-se usar qualquer das funções de penalidade interior apresentadas, por exemplo:
ou ainda
Como
, o problema passa a ser:
Observação: Note que é necessário conhecer um ponto inicial
, para servir de primeira aproximação, ou ponto de partida para o algoritmo.
Métodos de região de confiança
Considere o seguinte problema de programação diferenciável não linear sem restrições:
onde
é de classe
.
Observação: Como
não é necessariamente convexa, a matriz
pode não ser definida positiva, apesar de ser simétrica. Neste caso, o método de Newton ou suas variantes (direções conjugadas, quase Newton, etc) não servem.
O primeiro método de região de confiança (em inglês, Trust region method), foi introduzido por Powel em 1970 (qual artigo?) mas oficialmente introduzido por Dennis em 1978 (artigo?). Ele consiste no seguinte:
- A cada iteração, se constrói um modelo quadrático e uma região de confiança
este princípio pode ser considerado como uma extensão da busca de Armijo unidimensional.
[editar] Breve revisão da busca de Armijo
Para entender a geometria do método de região de confiança, é bom lembrar a geometria da busca de Armijo unidimensional.
Seja
uma direção de descida de uma função
a partir do ponto
. Então
. Agora, considerando
, definida por
, tem-se:
. Assim,
. Se
, então
.
- Exercício
Mostrar que sempre existe
tal que
.
| Resolução |
|---|
| A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
A busca de Armijo consiste em tomar
.
Se 
Mas como
, então existe algum
tal que vale
. A tal ponto, chama-se ponto de Armijo.
Introduzindo as seguinte notação
-

(modelo linear para a função
)
(redução predita por este modelo) 
(redução real no valor da função)
a pergunta é:
- Quando um ponto
vai ser ponto de Armijo com essa notação?
Tem-se:
Logo, se
segue que
é um ponto de Armijo.
Observações: Note que a essência da busca linear de Armijo é construir um modelo linear e um intervalo compacto
, sendo
e o ponto inicial da busca e logo procurar o ponto de Armijo em
.
[editar] De volta ao método
O método de região de confiança será uma generalização da busca de Armijo, consistindo da construção de um modelo quadrático e uma região
, chamada de região de confiança, e nessa região calcular o novo iterando.
[editar] Algoritmo da região de confiança
Primeiro passo: Escolha,
,
,
e
. Passo iterativo
: Enquanto
, construa o modelo quadrático:
Calcule
, solução de
Tome
e
Se
, fazer
Senão
,
e
![]()
Comentários: No algoritmo anterior, quando se tem um passo falho, a região de confiança sempre diminui. Seria bom incluir casos bons, onde a região deve crescer.
[editar] Algoritmo da região de confiança melhorado
Primeiro passo: Escolha,
,
,
,
,
e
. Passo iterativo
: Enquanto
, construa o modelo quadrático:
Continue = 1 Enquanto (Continue = 1) Calcule
, solução de
Tome
e
Se
, fazer
Se
,
; Continue = 0 k = k+1 Senão
![]()
[editar] O subproblema quadrático
Conforme foi explicado, o método das regiões de confiança constrói um modelo quadrático da forma:
onde, no método,
e
. Em tal modelo, tem-se
um vetor não nulo;
uma matriz simétrica (que pode não ser definida positiva)
O problema quadrático é
com
.
Este é o problema que será tratado a seguir.
- Exercício
Provar que
sempre tem solução.
| Resolução |
|---|
Esboço: Como é uma função contínua e o conjunto onde se quer minimizar tal função é uma bola, em dimensão finita, trata-se de minimizar uma função contínua em um compacto. Esse é um problema que tem solução, pelo teorema de Weierstrass. |
O exercício anterior garante que o método está bem definido, quer dizer, todas as etapas podem ser realizadas.
O problema de mínimos quadrados
Este tipo de problema é muito frequente em ciências experimentais. Para ter um exemplo em mente durante a discussão que será feita mais adiante, considere as seguintes informações:
Segundo dados disponibilizados pelo IBGE, o Produto Interno Bruto per capita na cidade de São Paulo, no período de 2002 a 2005, foi (em reais): 17734, 19669, 20943 e 24083, respectivamente.
Com base nessas informações, como poderia ser feita uma previsão do valor correspondente ao ano seguinte (2006)?
Uma escolha possível seria supor que a cada ano o PIB aumenta uma aproximadamente constante, ou seja, usar um modelo linear para obter tal estimativa (que possivelmente será bem grosseira). Intuitivamente, bastaria analisar os dados disponíveis e a partir deles deduzir qual é o aumento que ocorre a cada ano. Depois, a previsão para 2006 seria aproximadamente igual à de 2005 somada com aquele aumento anual.
Esta idéia poderia até funcionar para o caso deste exemplo, mas o que fazer se a quantidade de dados disponíveis sobre algum fenômeno (ou alguma situação) for significativamente maior?
A melhor escolha, sem dúvida, é fazer uso de um computador para obter o modelo que melhor descreve o "comportamento" dos dados experimentais.
Em geral, os problemas de mínimos quadrados consistem em identificar os valores de determinados parâmetros, de modo que se satisfaçam certas equações
. No contexto do exemplo anterior, se procura um modelo linear para os dados, ou seja, uma função
que os descreva da melhor forma possível. Assim, os parâmetros a considerar são
e
. Os valores ideais para essas variáveis seriam aqueles que verificassem as seguintes equações:
Note que a partir dessas equações poderiam ser definidas as funções
como:
É de se esperar que o sistema de equações obtido a pouco não admitirá uma solução exata, pois se tem mais equações do que variáveis.
Isso geralmente acontece, pois é comum haver uma quantidade
de equações bem maior que o número
de parâmetros a identificar. Em particular, quando todas as equações
são lineares em suas
variáveis, dificilmente existirá uma solução exata para o sistema linear resultante, pois este terá mais equações do que incógnitas (como no exemplo). Em geral, não é possível encontrar parâmetros que satisfaçam exatamente todas as equações. Por isso, costuma-se tentar identificar os parâmetros que "melhor se aproximam" de uma solução exata, em algum sentido.
Uma forma de obter uma solução aproximada (uma "quase-solução") resulta da seguinte observação: o valor de cada função
em uma solução exata
deveria ser zero. Se tal exigência é restritiva demais, e com ela não é possível encontrar qualquer solução, uma possibilidade seria exigir um pouco menos. Por exemplo, poderia ser exigido apenas que o valor de
, para
seja, em geral, pequeno. Uma das formas de capturar essa idéia em termos mais precisos é dizer que se pretende minimizar a soma dos quadrados dos valores de cada
. Em símbolos, o problema passaria a ser:
[editar] O caso linear
Neste caso, para cada índice
, a função
é afim linear, ou seja:
onde
e
para cada
. Deste modo, pode-se definir uma função
como
de modo que
Motivando a introdução da seguinte notação:
Assim,
Logo, buscar uma solução exata é o mesmo que procurar uma solução para o seguinte sistema linear:
E uma solução aproximada poderia ser buscada a partir do seguinte problema de minimização:
- Exercício
Verifique que se houver uma solução exata, ela também será um minimizador de
. A recíproca é verdadeira?
| Resolução |
|---|
Primeiramente, observe que para qualquer tem-se
Isso significa que e consequentemente Então, em Não vale a recíproca, pois se para um certo
Isto significa que |
Analisando a função objetivo do problema de minimização anterior, tem-se:
Logo, como
é simétrica e semi-definida positiva, tem-se
convexa. Isso implica que a condição necessária de primeira ordem é também suficiente. Assim, qualquer ponto
tal que
é solução do problema aproximado.
Calculando o gradiente da função objetivo tem-se:
Deste modo, a solução do problema é obtida resolvendo o sistema
Observe também que isso implica
, ou seja,
.
[editar] Exemplo de aplicação
Considere dado um conjunto de pontos do plano
, por exemplo
, representando dados obtidos experimentalmente.
Perguntas:
- 1. Qual é a função afim linear que melhor se aproxima dos dados experimentais?
| Resolução |
|---|
As funções afim lineares no plano são aquelas que possuem a forma . Então os parâmetros a identificar são e .
Como são as funções Assim, A expressão final pode ser simplificada adotando a seguinte notação De fato, nesses termos tem-se |
- 2. Qual é a função quadrática que melhor se aproxima dos dados experimentais?
| Resolução |
|---|
As funções quadráticas possuem a forma . Então os parâmetros a identificar são , e .
Pode-se tomar Procedendo como antes, tem-se onde |
- Exercício
Explorar o exemplo anterior com dados concretos, implementando um dos três métodos de gradientes conjugados.
| Resolução |
|---|
| A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
- Observações
Conforme se aumenta o grau do polinômio que faz a aproximação dos dados, as colunas de
têm elementos elevados a potências cada vez maiores, fazendo com que os autovalores de
sejam cada vez mais dispersos. Com isso,
torna-se mal condicionada.
- Exercício
É possível, usando o problema de mínimos quadrados, verificar o postulado de Euclides que diz que "por dois pontos distintos passa uma única reta"?
| Resolução |
|---|
| A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
- Exercício
Usando o problema de mínimos quadrados, é possível inferir que "por três pontos distintos passa uma única curva quadrática"?
| Resolução |
|---|
| A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
[editar] O caso não linear
Para esse tipo de problemas, há dois métodos:
- Gauss-Newton
- Levemberg-Marquardt
Ambos são métodos do tipo Newton. Então, para entender cada um deles é preciso entender o Método de Newton.
[editar] O método de Newton
Para entender a essência do método de Newton, primeiro considere que o problema a ser resolvido é
sendo
, e portanto
de classe
. A idéia de Newton é usar o desenvolvimento até segunda ordem da série de Taylor da função
em cada ponto iterado. Isto é, se o iterado é
, então:
Então a condição de Newton é que em cada iteração a Hessiana
deve ser definida positiva.
Calculando o gradiente da função
, segue:
Se
é o (único) minimizador de
, então
donde
Sendo
definida positiva, tal matriz é também inversível. Portanto:
Assim, pode-se usar a seguinte iteração:
[editar] Algoritmo de Newton (puro)
Início: TomeSe
, pare:
é ponto crítico. Senão, Calcule
, solução de
Faça
e
Iteração: Se
, pare:
é ponto crítico. Senão, calcular
, solução de
Faça
e
![]()
Voltando ao problema original, de mínimos quadrados, se tinha:
Calculando o gradiente desta função, resulta:
Considera-se
definida por
Deste modo, a Jacobiana de
verifica:
pois o produto de uma matriz por um vetor tem como resultado um vetor que é a combinação linear das colunas da matriz, com coeficientes que são as coordenadas do vetor.
Além disso, tem-se
Seja
Sabe-se que uma matriz
é definida positiva se
para qualquer
. Fazendo
, tem-se:
Para que
seja definida positiva, é necessário que
( deve gerar todo o espaço), neste caso, se diz que
é de posto máximo.
[editar] Algoritmo de Gauss-Newton
Início: TomeSe
, pare:
é ponto crítico. Senão, Calcule
, solução de
, onde
Faça
e
Iteração: Se
, pare:
é ponto crítico. Senão, calcular
, solução de
Faça
e
![]()
[editar] Algoritmo de Levemberg-Marquardt
A idéia de Levemberg-Marquardt foi perturbar a matriz
, considerando
, para algum
pequeno.
Início: TomeSe
, pare:
é ponto crítico. Senão, Calcule
, solução de
, onde
Faça
e
Iteração: Se
, pare:
é ponto crítico. Senão, calcular
, solução de
Faça
e
![]()
- Exercício
Enumere as diferenças que existem nos seguintes algoritmos:
- Newton
- Gauss-Newton
- Levenberg-Marquardt
| Resolução |
|---|
| Newton
Desenvolvendo Gauss-Newton Em alguns casos a matriz hessiana de
Usando Taylor em
Substituindo
Calculando o gradiente e depois a segunda derivada temos:
Denotando
A idéia do método de Levenberg-Marquardt é pertubar a matriz Portanto o método de Levenberg-Marquardt escolhe
|
KKT
Neste capítulo o objetivo é desenvolver algumas ideias e provar o teorema de Karush–Kuhn–Tucker (também chamado simplesmente de teorema KKT) que será utilizado no capítulo seguinte para explorar os métodos duais. O teorema KKT é bem útil para resolver problemas do tipo
[editar] Cones
- Definição
Um conjunto
é um cone quando
Em outras palavras, a propriedade que caracteriza um cone é que este tipo de conjunto contém todos os múltiplos não nulos de qualquer de seus elementos.
- Definição
Dado um subconjunto
, o cone polar de
é o conjunto definido por
.
Observações:
é um cone: Se
tem-se que
. Logo, para qualquer
, vale
. Disto segue que
, mostrando que
é um cone.- Sempre se tem que
(Verifique).
Na segunda propriedade a igualdade pode não ocorrer (exemplo?). Para o objetivo deste texto, o ideal seria que a igualdade valesse. Mas será que isso ocorre para algum conjunto? A resposta é sim e, conforme o próximo lema, basta que
seja um cone convexo fechado.
| Este módulo tem a seguinte tarefa pendente: Incluir a definição de projeção antes deste ponto, pois ela será usada durante a demonstração |
- Lema (Farkas)
Se
um cone convexo fechado, então
.
| Demonstração |
|---|
Seja e . Sabendo que a projeção de um ponto sobre um conjunto convexo é única, será mostrado que e então ficará provada a inclusão . Disto seguirá a igualdade entre os dois conjuntos, já que é sempre um subconjunto de .
Pelo teorema da projeção (ver Izmailov & Solodov (2007)), tem-se que
Dessas desigualdades, conclui-se que De Usando a definição de cone polar, isso implica que Uma vez que Desses fatos acima se conclui que Isso mostra que |
- Definição
Dado
, se diz que
é uma direção viável em
, com respeito a
, quando existe
tal que
-
.
- O conjunto de todas as direções viáveis em
, com respeito ao conjunto
, será denotado por
.
Esse conjunto
é o cone das direções viáveis em
, com respeito a
.
- Definição
Uma direção
é uma direção de descida da função
em
, se existe
tal que
-
.
- O conjunto das direções de descida será denotado por
.
[editar] Caracterização das direções de descida
- Lema
Seja
uma função diferenciável em
. Então
.
satisfaz
.
| Demonstração |
|---|
1) Seja . Então, tem-se .
Usando a série de Taylor, tem-se Sendo
Passando o limite com 2) Novamente aplicando Taylor em
Como
Pela hipótese
Pelo teorema da conservação do sinal, existe Portanto,
Conclui-se então que |
[editar] O cone viável linearizado
- Definição
Dado
, a desigualdade
é uma restrição ativa em
se
.
- Observações
- O conjunto formado pelos índices das restrições de desigualdade ativas é denotado por
. Assim,
- Definição
Dado um ponto
e o conjunto
, se define o cone viável linearizado de
a partir de
como
.
é um cone não-vazio convexo e fechado pois,
. E se
, tem-se
e
.
Portanto
mostrando que
é convexo.
Para mostrar que
é fechado, pode-se pegar uma sequência convergente
e mostrar que o ponto de acumulação dela esta em
.
Tem-se que
.
Passando o limite com
, obtem-se
e
.
Isso mostra que
é fechado.
- Lema (Caratheodory)
Sejam
. Seja
com
e
escalares tais que
e
.
e escalares
com
e
tais que
e os vetores
são linearmente independentes.
| Demonstração |
|---|
Sem perda de generalidade, suponha que e . Considere que sejam linearmente dependentes.
Portanto existem escalares Multiplicando a igualdade acima por
Para Seja Assim, se escreve Repetindo esse processo obtem-se uma combinação linearmente independente. |
- Definição
Dado um ponto
, se define o cone
por
-
.
A seguir, serão mostradas algumas propriedades deste cone.
- Lema
Para qualquer
,
é um cone convexo e fechado.
| Demonstração |
|---|
Primeiro será mostrado que é de fato um cone. Seja e . Então tem-se
Como Agora, será provado que
Logo tem-se,
Como Para mostrar que Para isso seja Escrevendo Pelo Lema de Caratheodory podemos assumir que Uma vez que Uma vez que Passando o limite obtem-se,
Isso mostra que Agora passando o limite em |
- Lema
Para qualquer
,
.
| Demonstração |
|---|
Como e são convexos e fechados, tem-se que e . Será mostrado então que .
Seja Mas Conclui-se então que Agora a volta, seja Em particular, uma vez que Além disso, uma vez que Logo |
[editar] O cone tangente
- Definição
Um vetor
é chamado direção tangente em
a partir de
quando ou
ou
tal que
e
.
- Observações
- O conjunto de todas as direções tangentes no ponto
, é denominado cone tangente, e denotado por
. - Se
, então
também pode ser descrito como
- Exercício
Verifique que
é de fato um cone (e portanto merece ser chamado de "cone tangente").
| Resolução |
|---|
| A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
[editar] Exemplo de cone tangente
Determinar o cone tangente ao ponto
do quadrado unitário com vértices
,
,
e
.
| Resolução |
|---|
|
Dado qualquer ponto Com essas escolhas, tem-se: Logo, |
[editar] Propriedades do cone tangente
O cone tangente definido anteriormente tem as seguintes propriedades:
é fechado e 
- Se
então 
- Se
é uma vizinhança de
, então 
- Observação
A terceira propriedade indica que o cone tangente só depende do que ocorre bem perto de
, no conjunto
.
- Lema
Para qualquer
,
é fechado.
| Demonstração |
|---|
Seja com . Será mostrado que .
Caso Neste caso, sem perda de generalidade pode-se considerar que Fixando Assim para Em particular, tomando
Tomando o limite quando
Logo Isso mostra que |
- Exercício
Verificar que:
.- Se
e
, então
.
- Lema
Se
é um mínimo local do problema (P), então
.
| Demonstração |
|---|
| Por Taylor tem-se
Passando o limite quando Donde |
[editar] Teorema KKT
- Teorema (Condições de KKT)
Seja
e considere
um minimizador local do problema
, então existem
e
tais que:


.
| Demonstração |
|---|
Considere um minimizador local do problema (P). Então . Pela definição de cone polar isso significa que .
Pela hipotése tem-se Como foi visto acima Pela definição de
Como Como Com isso fica provado o Teorema de KKT. |
Métodos duais
[editar] Lagrangiana
O conceito de lagrangiana está sempre relacionado ao seguinte problema:
- Definição
A função lagrangiana associada ao problema
é
definida por
.
Em alguns livros é usada a seguinte notação:
definida por
e
definida por
Deste modo, a lagrangiana fica expressa por
que é uma representação bem mais compacta.
[editar] Condições de otimalidade
Para permitir a compreensão da importância da função lagrangiana em otimização, é preciso ter em mente os principais resultados que garantem a otimalidade de uma solução para o problema
. Nas próximas seções será apresentado um breve resumo das condições de otimalidade, dividindo-as em dois casos:
- Caso particular: quando
é convexo e fechado. - Caso geral: quando
é arbitrário.
[editar] Caso particular
- Proposição
Seja
função de classe
no conjunto
. Se
é um minimizador local de
no conjunto convexo e fechado
, então:
| Demonstração |
|---|
Seja uma solução de , e fixe um ponto arbitrário . Denote por a restrição da função sobre o segmento de reta que passa por e por , ou seja,
Note que Como
Logo,
Mas pela regra da cadeia,
Como |
- Observação
A condição
significa que os vetores
e
formam um ângulo reto ou agudo (menor ou igual a 90 graus), conforme indicado na figura a seguir:
No caso específico, com
e
,
é a derivada direcional de
na direção
. Quando tal número é não negativo, intuitivamente a função cresce naquela direção.
Quando
é um conjunto convexo e fechado, a existência de uma solução para o problema
é garantida pela seguinte proposição:
- Proposição
Se
,
é convexa e
é um minimizador global de
no conjunto
(isto é,
é solução de
).| Demonstração |
|---|
Pela convexidade de , tem-se que:
Logo, Portanto, |
Até aqui, não é exigido que qualquer das funções
ou
sejam diferenciáveis. Isto será utilizado mais adiante, nos algoritmos.
A próxima proposição fornece uma caracterização dos minimizadores, em termos do conceito de projeção.
Lembre-se que a projeção de um ponto
sobre o conjunto
, denotada por
, satisfaz
. Na verdade, vale:
- Proposição
Seja
um número real fixado.
- Se
é um minimizador local de
em
, então 
- Se
é convexa e
, então
é um minimizador global de
em
.
| Demonstração |
|---|
| (1)
Como Observe que essa desigualdade equivale à ou ainda Tomando que equivale a dizer que (2) Reciprocamente, supor que Usando a hipótese de que |
[editar] Caso geral
Para tratar este caso, é preciso utilizar o conceito de cone tangente. O conjunto contínua o mesmo, ou seja,
, embora não seja mais suposto que ele é convexo. Mesmo assim,
ainda será fechado, pois as funções
e
que o definem são contínuas.
- Teorema
- Se
é um minimizador local de
em
, então
. - Se
é convexo,
é convexa e
, então
é minimizador global de
em
.
Este teorema pode ser demonstrado de forma análoga a que foi feita anteriormente.
| Demonstração |
|---|
| Esta demonstração é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
Seja
definido como:
.
Pela segunda propriedade do cone tangente, tem-se:
. Logo,
Em outras palavras, se é dado um conjunto
e depois se restringe tal conjunto para
, através do acréscimo de restrições inativas em um ponto
, os cones tangentes aos dois conjuntos (no ponto
) coincidem.
- Definição
Toda condição que implica que
é chamada de condição de qualificação das restrições.
Observação: Também se pode dizer condições de regularidade das restrições (do inglês, Regularity conditions).
[editar] Exemplos de condições de qualificação das restrições
(1) Se
e
são funções afim-lineares, então para qualquer
, tem-se
. Prova-se isso trivialmente
| Prova |
|---|
| Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
(2) Condições de Slater: Se as funções
são convexas e as
são afim lineares e, além disso, existe
tal que
para todo
,
, então para qualquer
, tem-se
.
| Prova |
|---|
| Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
(3) Condições de Mangasarian-Fromowitz: Se
é linearmente independente e existe
tal que
para tpdp
e
.
| Prova |
|---|
| Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
- Teorema (Karush–Kuhn–Tucker)
Suponha que
,
e
são funções de classe
em uma vizinhança do ponto
e que
. Se
é um minimizador local de
em
, então existem
e
tais que:
Note que aqui aparece a lagrangiana, pois a primeira condição é equivalente a:
O essencial para a existência de
é que
.
- Teorema
Suponha-se que
,
e
são funções de classe
em uma vizinhança de
, que
e
são convexas e que
são afim-lineares. são funções de classe
. Se existem
e
tais que:
A partir deste teorema são construídos alguns algoritmos.
| Este módulo tem a seguinte tarefa pendente: Confrontar as informações presentes nestes últimos teoremas com algum livro. Parece estar precisando de pequenas correções. |
Considere o seguinte problema:
Sabe-se que
dada por
.
Agora, tem-se as KKT:
- Teorema
Supondo que
e
são de classe
em uma vizinhança de
e que
, se
é um minimizador local de
em
, então
tal que
de modo que:
[editar] Uma inequação sobre ínfimos e supremos
- Teorema
Sejam
e
dois subconjuntos arbitrários e considere uma aplicação
. Então
| Demonstração |
|---|
Sabe-se que
quaisquer que sejam Assim, calculando o supremo (com relação aos valores de |
- Exercício
Verifique que:
| Demonstração |
|---|
| Esta demonstração é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
Defina-se a função:
, dada por
e também
, dada por
Conforme o exercício anterior, tem-se então
Observando a relação entre essas funções, é natural considerar dois problemas de otimização:
e
- Comentários
- As funções
e
são conhecidas na literatura como funções em dualidade (ou mais frequentemente, funções duais); - O problema
é conhecido como problema primal, enquanto
é chamado de problema dual; - Fazendo
e
, segue-se do exercício anterior que
; - A diferença
é chamada de brecha de dualidade, ou salto de dualidade (do inglês, skip duality);
- Exercício
Verifique que: 
| Resolução |
|---|
Se tem-se que e .
Substituindo na lagrangeana tem-se que Por outro lado, se
Com esta escolha, a lagrangiana será
Tomando o limite quando Para o outro caso a prova é análoga. |
- Exercício
Verifique que
consiste de maximizar uma função côncava em um poliedro. Lembre-se:
-
- Uma função
é côncava quando
for convexa. - Um poliedro é qualquer intersecção finita de semiespaços fechados.
- Uma função
| Resolução |
|---|
Primeiro será mostrado que : , dada por é uma função côncava. Para isso, basta mostrar que para cada vale
Chamando Quanto ao conjunto ser um poliedro, isso segue do fato de |
[editar] Exemplo numérico: problema primal e seu dual
Considere o problema
| Resolução |
|---|
|
O problema é ilustrado na imagem a direita. Primeiramente, é preciso identificar quais são as funções
Neste caso, a lagrangiana é:
Em seguida, é preciso calcular
E, conforme um dos exercícios anteriores (ou através de uma breve análise dos supremos envolvidos na expressão anterior), tem-se: Analogamente, tem-se:
Observe que em relação a ou seja, donde Portanto, Assim, os problemas em dualidade são: e Pelo primeiro item do exercício, tem-se que a minimização do problema Por outro lado, através da lagrangiana, obtem-se além do problema primal |
[editar] Ponto de sela
Este é um conceito muito importante relacionado à lagrangiana.
- Definição
Dado o problema
e a lagrangiana
associada à esse problema, se diz que
é um ponto de sela de
se
e:
.
- Teorema
O ponto
é um ponto de sela de
se, e somente se:
é solução de
;
é solução de
;
.
| Demonstração |
|---|
Se é um ponto de sela de , então e se tem:
Em particular, como
segue da segunda desigualdade que e calculando o ínfimo sobre todos os Por outro lado, da inequação sobre ínfimos e supremos, tem-se Logo, todos os membros das desigualdades acima coincidem, ou seja, Mas da definição de
Portanto, Reciprocamente, supondo que e admitindo que Além disso, usando como hipótese que
Em particular, tomando
Logo, pela definição de
Portanto, |
[editar] Exemplos
Considere novamente o problema de otimização dado por:
Verificar se a lagrangiana associada à
tem ponto de sela.
| Resolução |
|---|
|
O problema é ilustrado na imagem a direita, e conforme foi deduzido anteriormente, tem-se: Além disso, como foi mostrado anteriormente, vale e também ou seja, Agora, consideram-se os seguintes problemas em dualidade: e Donde Intuitivamente, nos pontos em que Mas pela desigualdade a respeito de supremos e ínfimos, tem-se Como Finalmente, como |
[editar] Análise do problema
Considerando
,
,
e
, se
é uma solução do problema dual, considere o seguinte problema:
que no caso do exemplo reduz-se a
A solução deste problema é obtida resolvendo
, sendo portanto
. Note que esta é a solução do problema primal
(e consequentemente do problema original
).
Será apenas uma coincidência? Ou ainda, em que situações a solução deste último problema será também solução do problema original?
A resposta será dada pelo próximo teorema. Acompanhe.
- Teorema (dualidade lagrangiana convexa)
Suponha-se que
são de classe
e convexas, e que as funções
são afim lineares e
. Nestas condições:
- Se o problema
tem solução, então
e os problemas
e
têm solução. - Se
tem solução, e
é solução de
, então as soluções de
são as soluções de
, onde
.Antes da demonstração, vale a pena imaginar a seguinte aplicação da segunda parte do teorema: Se por alguma razão não se sabe resolver o problema original
, pode-se optar por resolver
(um problema concavo em um poliedro), e depois resolver
(que é um problema convexo sem restrições). Em outras palavras, é possível trocar um problema difícil por dois problemas mais fáceis,
e
.
Agora a demonstração do teorema:
| Demonstração |
|---|
(1) Como tem solução, seja uma solução de . Pelo teorema de KKT (que se aplica pois as funções são de classe e se tem a qualificação das restrições), segue a existência de e , tais que:
Como
Usando (1), conclúi-se uma das duas desigualdades que definem um ponto de sela em
Considerando que pois Mas, por KKT, Logo: Assim, quaisquer que sejam Logo, (2)Seja Seja
Uma vez que As soluções deste problema são soluções de |
- Exercício
Verificar se existe salto de dualidade nos problemas em dualidade para o seguinte problema de minimização:
- Exercício
Juntamente com o problema
do exercício anterior, considere o seguinte problema:
não ser convexa, é válido o resultado do teorema? Para que serve KKT? É possível resolver o problema dual e usar a resposta para resolver o primal?- Exercício
Experimente escolher
e uma transformação linear, e um poliedro (intersecção finita de semi-espaços). É difícil de resolver o problema primal. Tente resolver o dual, usando os métodos conhecidos.
A seguir será apresentada uma proposição que responde a uma pergunta deixada anteriormente:
- Proposição
Considere o problema
a lagrangiana
e os problemas em dualidade
e
e
soluções de
. Se
é solução do problema
(o conjunto dos pontos que satisfazem as restrições) e
, então
é também uma solução do problema
.Tal proposição fornece um roteiro para quem precisa resolver o problema
relativamente difícil:
- Primeiramente, resolve-se
; - Depois, constrói-se o problema
e encontra-se uma solução
para o mesmo; - Finalmente, se
satisfaz as últimas condições da proposição, ele é também uma solução de
.
| Demonstração |
|---|
Se é uma solução de , . Então, pela definição de , tem-se:
Como ou seja, Portanto, Por outro lado, como Por hipótese, Logo,
Então para quaisquer que sejam
quaisquer que sejam Portanto, |
[editar] Resumo do esquema de dualidade
Neste ponto, pode-se sintetizar a estratégia geral para a resolução de problemas de otimização utilizando esquemas de dualidade.
Considere o problema
onde
são funções de classe
, e seja a lagrangiana
definido por
.
Convenciona-se que:
é a variável primal;
é a variável dual;
Nesse sentido, "o
é o dual de
" (não confundir com o significado que essa expressão teria na análise funcional. Ver nota sobre a terminologia), ou seja:
é onde "mora" a variável primal
;
é onde "mora" a variável dual
;
Definem-se então as funções
e
da seguinte maneira:
, dada por
e
, dada por
A partir destas duas funções, formulam-se os seguintes problemas duais:
e
É possível verificar que
equivale ao problema original
e que
consiste da maximização de uma função côncava em um poliedro (convexo).
Logo, o dual de
é
.
[editar] Conclusões
Dado qualquer problema
, seu dual
é um problema côncavo (isto é, a função objetivo é côncava), tal que os pontos satisfazendo o conjunto de restrições formam um poliedro convexo.
Apesar da controvérsia filosófica existente acerca do nome destes conceitos (coisa que poderia muito bem vir a ser alterada no futuro), a moral da história é que "transforma-se um problema geralmente difícil (sem estrutura) em um problema mais fácil (cheio de estrutura)".
[editar] Uma nota sobre a terminologia
Na subárea da matemática denominada Análise Funcional, quando se tem um espaço topológico
, costuma-se chamar de dual topológico ao conjunto
.
Aparentemente, os conceitos de dual da otimização e da análise funcional não tem relação um com o outro.
Um dos primeiros a falar de dualidade (espaços duais) foi o francês Fenchel, mas foi fortemente criticado por Urruty e Lemaréchal, pois os dois conceitos de dualidade não estão relacionados. Também o francês Brezis concordou que há um problema a ser resolvido com a nomenclatura, e um dos conceitos deveria deixar de ser chamado assim.
Aplicações dos métodos duais
[editar] Aplicação à programação linear
Considere um problema típico da programação linear como:
onde são dados
,
,
,
,
,
,
e
. Por simplicidade, pode-se ainda adotar a seguinte notação:
Nesta seção será mostrado como a "bonita teoria dos métodos duais" se aplica a esse tipo de problema.
Primeiramente, calcula-se a lagrangiana:
Note que:
- As variáveis primais são
e
; - As variáveis duais são
,
e
;
Agora é preciso identificar as funções
e
correspondentes a este problema. Conforme anteriormente, tem-se:
, dada por
e
, dada por![\begin{align}
\beta(u,v) & = \inf_{\begin{smallmatrix}x \in \mathbb{R}^n \\y \in \mathbb{R}^m\end{smallmatrix}} l(x,y,u,v,w)\\
& = \inf_{\begin{smallmatrix}x \in \mathbb{R}^n \\y \in \mathbb{R}^m\end{smallmatrix}} [a - M^\top u - P^\top v - w]^\top x + [b - N^\top u - Q^\top v]^\top y + [c^\top u + d^\top v]\\
& = [c^\top u + d^\top v] + \inf_{x \in \mathbb{R}^n} [a - M^\top u - P^\top v - w]^\top x + \inf_{y \in \mathbb{R}^m}[b - N^\top u - Q^\top v]^\top y\\
& = \left\{\begin{array}{rcl}
c^\top u + d^\top v & , & \text{ se } \left\{\begin{array}{rcl}
a - M^\top u - P^\top v - w & = & 0\\
b - N^\top u - Q^\top v & = & 0\\
u\ge 0;\, w \ge 0 & &
\end{array}\right.\\
-\infty & , & \text{ em outros casos}
\end{array}\right.
\end{align}](//upload.wikimedia.org/wikibooks/pt/math/c/a/4/ca47a18db9dc1c7e00783500dbc1ba08.png)
Logo, considerando que
, o problema dual consiste no seguinte:
- Exercício
Verificar que
é uma solução de
é uma solução de
| Resolução |
|---|
Seja uma solução de . Então, por definição, tem-se para todo que
mas isto equivale a ou seja, |
- Exercício
Verificar que:
| Resolução |
|---|
| A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
[editar] Exemplificando com um problema de programação linear
O seguinte problema é chamado de problema standard (padrão) de programação linear:
onde são dados
,
e
.
[editar] Calculando o dual de (PL)
Primeiramente,
A função
não precisa ser calculada, pois já se mostrou que
Por outro lado, quanto à função
tem-se:
Logo, o problema dual é:
ou ainda
[editar] Calculando o dual do dual de (PL)
Considere o seguinte problema:
que, conforme já foi mostrado em um exercício anteriormente, equivale a
A lagrangiana é dado por:
Logo,
Logo, o dual de
é:
ou seja,
que equivale a
[editar] Um exemplo numérico contextualizado
Considere a seguinte situação:
- Um empresário que produz cerveja dispões de 240 kg de milho, 5 kg de lúpulo e 596 kg de Malta. Para produzir um barril de cerveja preta requer 2,5 kg de milho, 0,125 kg de lúpulo e 17,5 kg de malta. Enquanto que para produzir um barril de cerveja branca, se precisa de 7,5 kg de milho, 0,125 kg de lúpulo e 10 kg de malta. Por barril de cerveja branca vendido, o empresário recebe 130 reais, enquanto por um barril de cerveja preta, recebe 230 reais. Achar o modelo matemático para otimizar o ganho do empresário.
| Resolução |
|---|
Primeiramente, é preciso identificar quais são as variáveis do problema, e quais são os dados. Pode-se adotar a seguinte notação para as quantidades dos dois tipos de cerveja:
O ganho do empresário, que é o que se pretende maximizar, pode ser obtido pela fórmula: Por hora, considere que são aceitáveis os valores de Como o estoque de cada ingrediente é limitado, tem-se restrições que devem ser consideradas. Matematicamente tais restrições podem ser expressas assim: Pode-se simplificar a escrita das restrições e também da função objetivo utilizando a seguinte notação: Nesses termos, o problema de otimização a ser resolvido é: ou apenas, onde Tal problema tem solução pois a função objetivo Para este problema, a lagrangiana é dado por Donde Então, o problema dual é dado por que é equivalente a ou, escrevendo novamente em termos dos valores numéricos, |
Na década de 30, 40 e 50 havia diversos livros que tratavam cada problema de programação linear individualmente, deduzindo vez após vez os seus duais, e disso extraindo certas "regras" que eram então sugeridas ao leitor na forma "se o problema for desse tipo, use tal regra, se for daquele tipo, use esta outra, e se for deste outro tipo, use esta regra". Um dos primeiros autores que começou a trabalhar os problemas sob um novo ponto de vista, mais generalizado, foi Werner Oettio (grafia?) . Seguindo-se por George Dantzig (conhecido como inventor do método simplex), Eugen Blumb (grafia?) e Jean-Pierre Crouzeix.
| Este módulo tem a seguinte tarefa pendente: Identificar e corrigir a grafia correta dos nomes dos pesquisadores mostrados acima; Encontrar fontes para comprovar a informação deste parágrafo. |
[editar] Aplicação à programação quadrática
Agora, o problema a considerar passa a ser
onde
é um poliedro (interseção finita de semi-espaços),
,
e
é uma matriz simétrica positiva definida.
Note que este problema tem solução, uma vez que o problema irrestrito correspondente tem solução (já que
é uma matriz simétrica positiva definida, a função é limitada inferiormente, e como
é fechado, a função objetivo assume seu valor mínimo em
, por Wolfe).
Mesmo para
, os problemas de programação linear já são difíceis de resolver "à mão". É preciso utilizar alguma técnica mais sofisticada.
Para dar continuidade ao exemplo, considere que o poliedro
é dado por
com
e
.
Agora será aplicado o esquema de dualidade. A lagrangiana é
além disso,
e a última igualdade vale pois a função é fortemente convexa.
Considerando
, se deduz que
.
Logo,
Observe que, sendo os autovalores de
positivos, o mesmo vale obrigatoriamente para
. Assim, como a expressão de
envolve
, tal função é fortemente côncava (conforme já era esperado para tal função).
Baseado nestas deduções, o problema dual é
ou seja,
Usualmente este tipo de problema
é resolvido por meio do método do gradiente projetado.
[editar] Revisão do método do gradiente projetado
O método baseia-se na seguinte proposição:
- Proposição
Seja
uma função convexa em
, um conjunto convexo e fechado. Se o ponto
é tal que
, então
.
| Prova |
|---|
| Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
[editar] Um algoritmo para o método do gradiente projetado
Este algoritmo é bastante simples.
Primeiro passo: Escolhae fixe
. Passo iterativo
: Enquanto
![]()
![]()
Agora, é interessante observar como se faz para projetar um ponto em
.
- Exercício
Dado
, mostre que
| Resolução |
|---|
| A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
[editar] Exemplificando a projeção
Seja
. Então a projeção de
sobre
é :
Devido a essa simplicidade ao se fazer a projeção de um ponto, o método do gradiente projetado é muito eficiente para resolver o problema
.
[editar] Exemplo concreto
Seja
.
| Este módulo tem a seguinte tarefa pendente: Incluir uma ilustração deste conjunto. |
Como calcular a projeção do ponto
sobre o conjunto
,
?
| Resolução |
|---|
Seja a projeção de sobre . Então:
Então: Nota: O leitor deve observar que a inclusão de Logo o modelo matemático para resolver este problema é A lagrangiana é dada por Logo, Fazendo Donde Logo, Logo, o problema dual é ou seja, Agora, para a resolução deste problema dual, pode-se usar o método do gradiente projetado. Para isso, note que o gradiente de
Seja
Logo, a solução dual é Agora, substituindo tal solução na lagrangiana, obtem-se o problema: que é um problema quadrático sem restrições. Neste caso, basta igualar o gradiente a zero para determinar uma solução: Donde |
[editar] Exercícios resolvidos
- Exercício
Encontrar a solução do seguinte problema de programação linear:
| Resolução | ||
|---|---|---|
Primeiramente observe que , então não é possível obter uma interpretação geométrica do problema. Será usado o esquema de dualidade lagrangiana:
que equivale a ou simplesmente Agora, se tem um problema em
As inequações que definem o conjunto viável são: Tal conjunto é um pentágono (irregular, mas convexo), logo o valor máximo de Como Considere as condições de KKT:
Note que, a partir de 2 e 3, conclui-se que 4 só é possível quando Para se obter
Logo, comprovando a propriedade (2). Como valem as propriedades (3) e (5), tem-se: Donde Logo, Se |
Ao resolver o problema
, poderia ter sido escolhido
em vez de
. Será que isso influenciaria o resultado final?
Acompanhe como ficaria a resolução desta maneira:
| Resolução | ||
|---|---|---|
;Identificar a lagrangiana
que equivale a ou simplesmente Novamente, chega-se até um problema em
As inequações que definem o conjunto viável são: Este conjunto também é um pentágono, de modo que o valor mínimo de Nas condições de KKT, a única mudança é na propriedade (1), que se torna: Resta ainda saber quem é como antes. Como ao obter |
- Exercício
Formule como um problema de minimização com restrições o problema de projetar ortogonalmente o ponto
sobre o conjunto
. Depois, calcule explicitamente a função lagrangiana e o problema dual.
| Resolução |
|---|
| Matematicamente resolver esse problema é resolver
Definimos a lagrangeana como
Como a função é quadrática , podemos calcular o gradiente e igualar a zero:
Donde, Substituindo na função
O problema dual fica então:
Que é equivalente a:
|
- Exercício
No exercício anterior, se
é a variável dual relacionada a variável primal
e
é a variável dual relacionada a variável primal
, então verifique se
é solução dual e se a lagrangiana tem pontos de sela. Em caso afirmativo, calcule um ponto de sela, caso contrário, argumente porque a lagrangiana não tem pontos de sela.
| Resolução |
|---|
| Olhando o problema
observamos que é um problema com restrições. Podemos usar as equações de KKT para resolve-lo. Definimos a lagrangeana como
Agora usando o teorema de KKT devemos ter: Calculando o gradiente temos
E portanto Olhando nas equações acima obtemos Portanto Voltando na lagrangiana do problema original e substituindo os multiplicadores de Lagrange obtemos um problema sem restrições:
Calculando o gradiente temos:
Portanto Logo Para verificar que ele é ponto de sela, basta ver se não há salto de dualidade. Mas isso não ocorre já que o valor ótimo do primal é |
Método da lagrangiana aumentada
O problema a ser resolvido é:
Sabe-se que se for aplicado o método da lagrangiana, será considerada a função:
dada por
.
e também
, dada por
A grande dificuldade seria saber quando o valor de
é finito. Uma idéia seria modificar um pouco a lagrangiana (aumentando-a, com um termo extra), da seguinte maneira:
Com isso, seria necessário garantir que a idéia de fato resolve o problema. Por este motivo, é preciso desenvolver alguns resultados teóricos. Para fazer a análise deste método, um primeiro resultado importante é o seguinte:
- Lema (Finsler-Debreu)
Seja
uma matriz simétrica e
. As seguintes afirmações são equivalentes:
- Se
, com
, então
; - Existe
tal que a matriz
é definida positiva; - Existe
tal que a matriz
é definida positiva para todo
.
| Demonstração |
|---|
| Primeiramente, será mostrado que a afirmação (2) é equivalente à afirmação (3).
Obviamente, (3) implica em (2). Por outro lado, supondo que se tem (2), existe algum Assim, (2) também implica (3). Agora, será mostrado que de (2) se conclui (1). De fato, se Finalmente, será garantido que se vale (1) então vale (3) (ver também página 25, de Izmailov & Solodov (2007)). Isso será mostrado por contradição, ou seja, supondo que vale (1) e que mesmo assim, não seja válido (3). Se disso seguir uma contradição, a implicação desejada é verdadeira. Supondo que para todo Neste caso, dividindo por Como todos os
Neste caso, só é possível se contradizendo a hipótese (1). |
- Exercício
Prove a seguinte variante do lema anterior:
- Seja
uma matriz simétrica e semi-definida positiva, e
. As seguintes afirmações são equivalentes:
- Se
, com
, então
; - Existe
tal que a matriz
é definida positiva; - Para todo
, a matriz
é definida positiva.
- Se
A partir de agora, o problema será:
onde se supõe que
são funções de classe
e que para todo
, o conjunto
é compacto (em inglês costuma-se usar a expressão inf-compact para descrever tais funções).
Sabe-se que a lagrangiana associada ao problema
é:
dada por
.
e ainda, em uma notação mais sintética, considerando a função
dada por:
definida por
tem-se a lagrangiana expressa da seguinte maneira:
Para o método da lagrangiana aumentada serão assumidas as seguintes hipóteses:
- Se
é solução, então existe
tal que
; - Para todo
, o jacobiano de
satizfaz:
Note que a segunda hipótese tem exatamente a mesma forma de uma das condições que aparece no lema de Finsler-Debreu.
- Definição
Dado
, se define a lagrangiana aumentada para o problema
como:
dada por
Observe que é justamente a aparição do termo
sendo somado à lagrangiana que justifica o nome lagrangiana aumentada.
Esse conceito possui algumas interpretações:
- Exercício
Verifique que a lagrangiana aumentada
é justamente a lagrangiana do problema
penalizado, ou seja, de
| Demonstração |
|---|
| Basta notar que dentro do conjunto viável as funções objetivos são iguais. |
- Exercício
Verifique que a função dual
(o ínfimo da lagrangiana aumentada em relação à primeira componente), dada por
, com
satisfaz
é solução de 
| Demonstração |
|---|
E a segunda desigualdade
|
- Exercício
Verifique que
é compacto, qualquer que seja
e
.
| Resolução |
|---|
| A resolução deste exercício é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
- Proposição
Se
é solução de
, então existe algum
, algum
e alguma vizinhança
de
tais que
é fortemente convexa com parâmetro
.
| Demonstração |
|---|
Conforme o lema de Finsler-Debreu, a hipótese (2), segundo a qual para todo , o jacobiano de satizfaz:
equivale a dizer que existe algum Mas a Hessiana de Considere agora a função Logo, para qualquer Pela continuidade da função Assim, tomando o ínfimo, pode-se definir Então quaisquer que sejam Portanto, ou seja, os auto-valores de Para concluir que
Com isso, Isso significa que há um único mínimo local para tal função, e que consequentemente ele é um mínimo global. Das hipóteses 1 e 2 colocadas no início da discussão sobre a lagrangiana aumentada, segue que |
Com essas condições, mostrou-se que em um ponto que seja solução, a lagrangiana aumentada é fortemente convexa.
Antes de apresentar o algoritmo, será fixada mais uma notação:
[editar] Algoritmo da lagrangiana aumentada
Dados
e
.
Início: Tomee
. Iteração: Calcule
, solução de
. Se
, pare:
. Senão, faça
![]()
![]()
Este é um dos algoritmos mais usados e mais eficientes para problemas de programação não linear. A garantia de convergência segue dos próximos teoremas.
- Teorema
Sejam
,
e
como na proposição anterior. Se
é uma vizinhança de
, existe algum
tal que:

e 
Observações:
denota as soluções do problema;- A igualdade
significa que não há salto de dualidade. - Já foi mostrado que a função é fortemente convexa em uma vizinhança. Logo, os minimizadores devem estar em tal vizinhança.
- A prova é um pouco técnica, e usa as condições de KKT, mostrando que o cone linearizado é igual ao cone tangente.
| Prova |
|---|
| Esta prova é deixada a cargo do leitor. Sinta-se livre para melhorar a qualidade deste texto, incluindo-a na versão online deste material. |
O segundo teorema é:
- Teorema
Se
é suficientemente grande e
suficientemente pequeno, então:


é limitada
Observações:
- A propriedade 2 praticamente segue do fato de não haver salto de dualidade.
| Justificativa |
|---|
| Fica a cargo do leitor justificar este fato. Sinta-se livre para melhorar a qualidade deste texto, incluindo a justificativa na versão online deste material. |
Com esses resultados, tem-se a garantia de que o algoritmo realmente converge para uma solução, desde que os parâmetros sejam tomados adequadamente. A questão que ainda permanece é como identificar os valores adequados de
e de
para que tal convergência ocorra.
- Exercício
Argumente porque as hipóteses 1, 2 e 3 garantem que a iteração do algoritmo da Lagrangiana aumentada para problemas de minimização com restrições de igualdade tem uma única solução, sendo:
- Todas as funções são de classe
e a função objetivo tem todos os seus subníveis compactos. - Se
é solução do problema, então existe
tal que o gradiente da Lagrangiana não aumentada com respeito a variável primal se anula em
. - A hessiana da Lagrangiana não aumentada com respeito a variável primal é definida positiva sob a variedade ortogonal de todos os gradientes no ponto
das restrições.
Estilo
Nesta página estarão indicadas as convenções adotadas neste wikilivro sobre otimização, no que diz respeito a sua formatação. Recomenda-se a leitura do mesmo, por todos que pretendem contribuir com a melhoria desde texto.
[editar] Definições
- Definição
As definições aparecem em caixas com essa aparência.
- Observações
- Geralmente um termo importante aparece pela primeira vez em uma definição.
- Devido à sua importância, é bom destacar a definição do restante do texto.
- No momento, a forma de destacar uma definição neste wikilivro é a inclusão de bordas duplas em torno do texto da definição, como no exemplo acima. Para facilitar essa tarefa, utiliza-se a predefinição {{Definição}}.
- O conceito que está sendo definido costuma ser colocado em negrito, sendo que o texto da explicação tem sido alinhado a esquerda.
[editar] Propriedades
- Teorema
Sempre que uma propriedade importante dos objetos tratados no texto precisa ser destacada, isto deve ser feito em uma caixa como essa.
- Observações
- Os principais tipos de propriedades a ser destacados são: teoremas, proposições, corolários e pequenos lemas.
- Para conseguir a formatação acima, utiliza-se a predefinição {{Teorema}}.
[editar] Exercícios
- Exercício
Aqui vai o enunciado de um exercício.
- Pode-se colocar vários itens;
- Cada um com a numeração adequada;
[editar] Demonstrações e resolução de exercícios
| Resolução |
|---|
| É interessante destacar a resolução de um exercício, ou a demonstração de alguma propriedade em um espaço como este. |
[editar] Tarefas pendentes
| Um dos autores deste material sugeriu que as tarefas pendentes, como a inclusão de figuras, sejam indicadas em caixas como esta. |
Lista de símbolos
Índice remissivo
|
Faltam capítulos neste índice. |
Nesta página estão listados os conceitos abordados neste livro em ordem alfabética.
O nome de cada conceito possui um link para a página onde o mesmo é definido. Outras ocorrências importantes do conceito são indicadas pelos links numerados, logo após o link principal.
[editar] A
[editar] B
- Brecha de dualidade
- Busca linear
[editar] C
- Condição
- suficiente de segunda ordem
- Condições de otimalidade
- Condições de otimalidade
- de Karush-Kuhn-Tucker
- necessárias
- de primeira ordem
- de segunda ordem
- suficientes
- de segunda ordem
- Condições de qualificação das restrições
- de independência linear dos gradientes das restrições ativas
- de linearidade
- de Mangasarian-Fromovitz
- de Slater
- Cone
- tangente
- tangente linearizado
- Conjunto
- convexo
- de nível
- viável
- Convexidade
[editar] D
- Direção
- de descida
- viável
- Direções
- conjugadas
- Dualidade
[editar] E
[editar] F
- Função
- coerciva
- côncava
- convexa
- de barreira
- de penalidade
- exterior
- interior
- fortemente
- côncava
- convexa
- objetivo
- Funções em dualidade
[editar] G
[editar] H
- Hessiana
[editar] I
[editar] J
[editar] K
[editar] L
- Lagrangiana
- aumentada
- Lema
- de Finsler-Debreu
[editar] M
- Método
- dos gradientes conjugados
- da Lagrangiana aumentada
- de barreira
- de descida
- de direções conjugadas
- de Newton
- de penalidade
- interior
- exterior
- das regiões de confiança
- do gradiente
- conjugado
- projetado
- Minimizador
- global
- local
- Multiplicadores de Lagrange
[editar] N
[editar] O
[editar] P
- Penalidade
- exterior
- interior
- Ponto
- crítico
- de mínimo
- Problema
- de minimização
- de programação
- linear
- quadrática
- dual
- irrestrito
- primal
- Projeção
[editar] Q
[editar] R
- Região de confiança
- Regra
- de Armijo
- Restrições ativas
[editar] S
- Sistema
- de Lagrange
- Solução
[editar] T
- Teorema
- de Wolfe
[editar] U
[editar] V
[editar] W
- Wolfe, teorema
[editar] X
[editar] Y
[editar] Z
Bibliografia
[editar] Livros e artigos
- Avriel, Mordecai. Nonlinear Programming: Analysis and methods. New York: Dover, 2003. 528 p. ISBN 0486432270
- Izmailov, Alexey; Solodov, Mikhail. Otimização: Condições de Otimalidade, Elementos de Análise Convexa e de Dualidade. 1ª.ed. Rio de Janeiro: IMPA, 2005. 253 p. 2 v. v. 1. ISBN 8524402385
- Izmailov, Alexey; Solodov, Mikhail. Otimização: Métodos Computacionais. 1ª.ed. Rio de Janeiro: IMPA, 2007. 458 p. 2 v. v. 1. ISBN 9788524402685
- Hiriart-Urruty, Jean-Baptiste, Lemaréchal, Claude. Fundamentals of Convex Analysis. Springer, 2001. ISBN 3540422056
- [confirmar] Fletcher, Roger; Fitches, W. R.. Practical Methods of Optimization. Wiley, 1987.
- [confirmar] Dixon, ???. Practical optimization.
- Crouzeix, Jean Pierre; Keraghel, Abdelkrim; Sosa, Wilfredo. Programmation Mathematique Differential. 2008.
- Hestenes, Magnus R.; Stiefel, Eduard. Methods of Conjugate Gradients for Solving Linear Systems. Journal of Research of the National Bureau of Standards. v. 49 (6). Dezembro, 1952.
- Polak, E.; Ribière, G..Note sur la convergence de directions conjugées. Rev. Francaise Informat Recherche Operationelle, 3e Année 16 (1969) 35-43.
- Fletcher, R.; Reeves, CM.Function minimization by conjugate gradients. The Computer Journal, 1964 - Br Computer Soc.
- Courant, R..Variational methods for the solution of problems of equilibrium and vibrations. Bull. Amer. Math. Soc., 49, 1-23, 1943.
- Finsler, P.. Uber das Vorkommen definiter und semidefiniter Formen in Scharen quadratischer Formen. Commentaria Mathematicae Helvetia. Vol. 9. pp. 188-192, 1937.
[editar] Páginas da internet
- Martínez, José Mario. Otimização Prática Usando o Lagrangiano Aumentado. Departamento de Matemática Aplicada IMECC-UNICAMP. 2009.
- Martínez, José Mario; Santos, Sandra Augusta. Métodos Computacionais de Otimização. Departamento de Matemática Aplicada IMECC-UNICAMP. 262p.
- Gonzaga, Clóvis Caezar. Um Curso de Programação Não Linear. Florianópolis : UFSC, 2004.
- Jonathan Richard Shewchuk. An Introduction to the Conjugate Gradient Method Without the Agonizing Pain - Um artigo sobre o método do gradiente conjugado (pode ser copiado e distribuído livremente)
- Cardoso, Domingos Moreira. Tópicos de Optimização Não Linear. Aveiro: UA, 1999.
- João Antônio de Vasconcelos. Apresentações de slides (em pdf):
-
- Otimização em engenharia: Penalidades.
- Problemas de Programação Matemática Não-Linear
- Otimização em engenharia: Métodos de Penalidades e Métodos do Lagrangiano Aumentado
- Algoritmos Genéticos
- Simulated Anneling Algorithm.
- Otimização Vetorial.
- Computação Evolucionária
- How do ee compare EA performances in multiobjective optimization?
[editar] Material complementar
- Pires, Paulo Sérgio da Motta. Introdução ao SciLab Versão 3.0. Natal: UFRN, 2004.
- Chandler, Graeme; Roberts, Stephen. Introduction to Scilab. 2002.
- LaTeX to Wikicode translation tool - (link direto)
onde 
. Assim
, isto é, 




é convexo

é convexo
é um conjunto convexo
é um conjunto convexo e fechado

e é única

é convexa em D
é convexa em D
é convexa

(simétrica), e segue
(verifique).
é definida positiva.











, com 

Se
, então pare:
Senão:
Calcular
Passo iterativo
Se
, então pare:
Senão:

,
,
,
para 
arbitrário, por exemplo,
.










;
.


.







(como em todo método de descida)
Calcular
, através de uma busca linear
Calcular
Passo iterativo:
Se
Calcular 



definida a seguir é descontínua em cada ponto
:




e sua correspondente 


. Como
.

tal que
tem-se
.
(sua contrapositiva).
. A existência de um número
com tal propriedade significa que
é um conjunto limitado, donde conclui-se a equivalência entre coercividade e limitação dos conjuntos de níveis
é uma função não negativa, pois o quadrado de qualquer número real é não negativo, assim como a soma de números reais não negativos.
se, e somente se, para cada índice
e
. Como
, tem-se 
. Tome
. Nestas condições,
é limitado (conforme um dos exercícios anteriores) e fechado (pois é pré-imagem de um conjunto fechado por uma função contínua), portanto compacto. Neste caso, conforme o
tal que
.
então
(pela definição do conjunto 





![\Gamma = \Gamma_1 \cup \left\{ A \subset \mathbb{R} \cup \{ \infty \}: \exists a \in \mathbb{R}, A = \left] a, \infty \right]\right\}](http://upload.wikimedia.org/wikibooks/pt/math/8/6/1/8615a9c333bc79ed8a96ac31c19d24be.png)
uma função contínua;
uma sequência de termos positivos tal que
.
possui algum ponto de acumulação;
.
é coerciva, pois


tal que
tal que
e
, defina-se
por 
ser um minimizador, por construção, e a segunda segue por que
é decrescente. Portanto,
.




, sendo primeira desigualdade válida por
positivo, e a segunda devida à própria definição de
.
. Então
é uma sequência limitada.
, consequentemente
. Sendo
tal que
. Logicamente,
. Pela continuidade de
. Mas já havia sido verificado que
.
é crescente. Seja
(por que razão ele existe?). Como
, tem-se
. Portanto,
. Logo
, ou seja,
.
, e este valor é nulo se, e somente se,
, donde
, ou seja, 

então 
são covexas, então
é convexa.
é uma sequência tal que
e
então
, solução global de
Escolha
, onde:



, onde pode ser aplicado o método de gradientes conjugados.






tal que
vale 
Passo iterativo
, solução global de
Escolha
tal que






. Se
, então
.



e
.
Passo iterativo
, construa o modelo quadrático:
Calcule
Tome
e
Se
, fazer
Senão
,
e
,
,
e
, construa o modelo quadrático:
,
; Continue = 0
k = k+1
Senão







![\min_{x \in \mathbb{R}^n} \sum_{i=1}^{p}\left[h_i(x)\right]^2](http://upload.wikimedia.org/wikibooks/pt/math/c/6/c/c6cf53d162cf725451910f31f84620cf.png)







![\sum_{i=1}^{p}\left[h_i(\bar{x})\right]^2 \ge 0](http://upload.wikimedia.org/wikibooks/pt/math/c/e/7/ce7c0a6afdd31a24a62d042c52508bdc.png)
é uma cota inferior para os valores assumidos por esta soma de quadrados. Além disso, se 
![\sum_{i=1}^{p}\left[h_i(\bar{x})\right]^2 = \sum_{i=1}^{p} 0^2 = 0](http://upload.wikimedia.org/wikibooks/pt/math/2/2/5/225ff350ff7a72b90e748958e6125eb8.png)
a soma dos quadrados assumir um valor positivo
, então
implica que existe algum 



. Então os parâmetros a identificar são
.




. Então os parâmetros a identificar são
.
.




![x^* = \bar{x} - \left[\nabla^2 f(\bar{x})\right]^{-1} \nabla f(\bar{x})](http://upload.wikimedia.org/wikibooks/pt/math/b/a/7/ba79790d1cb879b5f5ec9209d77116e2.png)
![x_{k+1} = x_k - \left[\nabla^2 f(x_k)\right]^{-1} \nabla f(x_k)](http://upload.wikimedia.org/wikibooks/pt/math/4/6/5/465db59f68a8a60d4eb53cac01f08587.png)
, solução de
Faça
e
Faça
e ![f(x) = \frac{1}{2}\sum_{i=1}^{p}\left[h_i(x)\right]^2](http://upload.wikimedia.org/wikibooks/pt/math/3/b/b/3bbbe56250893dd4de24102f0154d300.png)


![\nabla f(x) = \left[J_H(x)\right]H(x)](http://upload.wikimedia.org/wikibooks/pt/math/3/1/a/31a63f0d717566675bf96d585bb2f3ed.png)


![x^\top \nabla h_i(x) \nabla h_i(x)^\top x = \left[\nabla h_i(x)^\top x\right]^2 \ge 0](http://upload.wikimedia.org/wikibooks/pt/math/4/5/3/453c292a34d939f6554d88487b35e8a6.png)
, onde
Faça
Faça
, onde
Faça
.
.
onde
é a jacobiana de
na ![\begin{align}
f(\bar{x}) & =\frac{1}{2}h(\bar{x})^{\top}h(\bar{x})\\
& =\frac{1}{2}(h(x)+J(x)(\bar{x}-x))^{\top}(h(x)+J(x)(\bar{x}-x))\\
& =\frac{1}{2}[(h(x)^{\top}h(x)+2h(x)^{\top}(J(x)(\bar{x}-x))+(J(x)(\bar{x}-x))^{\top}(J(x)(\bar{x}-x))]\\
& =f(x)+h(x)^{\top}(J(x)(\bar{x}-x))+ (J(x)(\bar{x}-x))^{\top}(J(x)(\bar{x}-x))
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/d/9/1/d91b3548bca40cc02162031aa688457c.png)
e
, então o método de Gauss-Newton escolhe
.

.
é um cone: Se
tem-se que
. Logo, para qualquer
, vale
. Disto segue que
, mostrando que
(Verifique).
e
. Sabendo que a projeção de um ponto sobre um conjunto convexo é única, será mostrado que
e então ficará provada a inclusão
. Disto seguirá a igualdade entre os dois conjuntos, já que
.
. Usando o fato de que
e
e substituindo isto na equação acima obtem-se
e
.
.
, tem-se que
.
.
.
.
.
.
.
.
.
. Então,
tem-se
.

,
.
tem-se que
.
tem-se
.
.
, com isto
.
.
.
.
e
.
e
.
.
e os vetores
são linearmente independentes.
e
. Considere que
sejam linearmente dependentes.
com
e
com
não todos nulos tais que

certamente nenhum dos coeficientes acima se anula.
o
ou
. Então
vetores já que
.
.
e
. Então tem-se
.
tem-se que
.
, isto é,
e
e
.
.
visto que
e
. Com isso concluímos que
mostrando que
com
. Será mostrado que
.
.
tem colunas linearmente independentes, e portanto
é não singular.
com
tais que
.
.
com
.
.
obtém-se
, mostrando que
e
. Será mostrado então que
.
. Assim, dado
tem-se

e
e
.
. Como
.
.
e
, tem-se que
, tem-se que
e
.
do 2º quadrante (formado pelos pontos
tais que
e
), pode-se definir:



.
então 
é uma vizinhança de 
com
. Será mostrado que
.
.
, pois
.
tem-se que
. Portanto, existe
tal que
e
quando
.
existe
tal que para
, tal que
e
.
tem-se
e
.
.
.
e
.
,
,
e
.
.
logo pode-se dividir e obtem-se
.
.
tem-se

.
.


.


.
. Pela definição de cone polar isso significa que
.
. Como
obtem-se que
.
é um cone convexo e fechado. Portanto usando o Lema de Farkas obtem-se que
.
com
e
com
tais que
com
.
, define-se
e 
obtem-se
.
.
definida por
definida por


, com
.
.
, para todo
, ou seja, 
, então
.
sempre forma ângulo menor ou igual a 90 graus com os vetores do tipo 

, ou seja, 
forma ângulo menor que 90 graus com o vetor
, pois
é a projeção de 

e
, tem-se a equivalência com:
, ou seja:
.
.
. Logo,














,
. Então, calculando o ínfimo em ambos os membros (com relação aos valores de
pode ser ilimitado inferiormente, tem-se para qualquer
:

, dada por
, dada por



e
, segue-se do exercício anterior que
;
é chamada de brecha de dualidade, ou salto de dualidade (do inglês, skip duality);
e
.
e tomando
, se vê que o supremo dos valores
é atingido, tendo
como valor.
existe um índice
e/ou
. No primeiro caso, seja
, onde
.
tem-se que
.
for convexa.
.
e
tem-se:![\begin{align}
\beta(\bar{u}, \bar{v})& = \inf_{x \in \mathbb{R}^n} l(x, ta+(1-t)b, tc+(1-t)d)\\
& = \inf_{x \in \mathbb{R}^n} f(x)+(ta+(1-t)b)^{\top}g(x)+(tc+(1-t)d)^{\top}h(x)\\
& = \inf_{x \in \mathbb{R}^n} f(x)+ta^{\top}g(x)+(1-t)b^{\top}g(x)+tc^{\top}h(x)+(1-t)d^{\top}h(x)\\
& = \inf_{x \in \mathbb{R}^n} tf(x)+(1-t)f(x) +ta^{\top}g(x)+(1-t)b^{\top}g(x)+tc^{\top}h(x)+(1-t)d^{\top}h(x)\\
& = \inf_{x \in \mathbb{R}^n} t[f(x)+a^{\top}g(x)+c^{\top}h(x)]+(1-t)[f(x)+b^{\top}g(x)+d^{\top}h(x)]\\
& = \inf_{x \in \mathbb{R}^n} tl(x, a, c)+(1-t)l(x, b, d)\\
& \ge \inf_{x \in \mathbb{R}^n} tl(x, a, c)+\inf_{x \in \mathbb{R}^n} (1-t)l(x, b, d)\\
& = t\inf_{x \in \mathbb{R}^n} l(x, a, c)+(1-t)\inf_{x \in \mathbb{R}^n} l(x, b, d)\\
& =t\beta(a, c)+(1-t)\beta(b, d).
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/e/7/4/e747e18e82ae301646f3bbc0f6a90fb7.png)
e
serem interseções finitas de semiespaços fechados.
;
e
, conclúi-se que as funções
e
.
, dado por
![\alpha(x) = \sup_{\begin{smallmatrix}u_1 \ge 0\\u_2 \ge 0\end{smallmatrix}} [x^2 + u_1 (1-x) + u_2 (x-2) ] = x^2 + \sup_{u_1 \ge 0} [ u_1 (1-x) ] + \sup_{u_2 \ge 0} [ u_2 (x-2) ]](http://upload.wikimedia.org/wikibooks/pt/math/0/3/3/03321bae6c7e637c9372a40902445870.png)
![\alpha(x) = \left\{\begin{matrix}
x^2 & , \text{ se } x \in [1, 2]\\
+\infty & , \text{ se } x \not\in [1, 2]
\end{matrix}\right.](http://upload.wikimedia.org/wikibooks/pt/math/7/7/7/777902e6d0bf0506165d7d4cad3fc14f.png)
, dada por![\beta(u_1, u_2) = \inf_{x \in \mathbb{R}^n} [x^2 + u_1 (1-x) + u_2 (x-2) ]](http://upload.wikimedia.org/wikibooks/pt/math/2/5/b/25b7b702e053cab4642a00d0a97041f9.png)





.
.
.
tem-se:
, então 
tem-se:

, quaisquer que sejam
.
,
e
, resulta:
, ou seja,
tem-se:
, quaisquer que sejam 


![\begin{align}
\beta(u, v) & = \frac{1}{4} ( [u_1^2 + u_2^2 - 2u_1u_2] + [4u_1 - 2u_1^2 + 2 u_1 u_2] + [2u_1u_2 - 2u_2^2 - 8u_2])\\
& = \frac{-1}{4} ( u_1^2 + u_2^2 - 2u_1u_2 - 4u_1 + 8u_2)\\
& = \frac{-1}{4} ( (u_1 - u_2)^2 - 4(u_1 - u_2)) - u_2\\
& = \frac{-1}{4} ( (u_1 - u_2)^2 - 4(u_1 - u_2) + 4) + 1 - u_2\\
& = \frac{-1}{4} (u_1 - u_2 - 2)^2 + 1 - u_2
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/0/5/d/05d5e825636d1809026b24fc2337fdf6.png)
é solução do problema primal, e
.
assumir seu valor máximo, deve-se ter
, pois conforme
aumenta,
decresce.
, quaisquer que sejam
,
.
, e ao tomar
e
, segue-se que
é uma solução do problema dual
, e
, segue que
é ponto de sela da lagrangiana 

e
, tais que:
é convexa em
.
.
, segue que:
e
.
. Além disso,
.




. Então, pela definição de
, tem-se:



, então
e
. Consequentemente,
, ou seja,
,
é a variável dual;
, dada por

![\begin{align}
l(x,y,u,v,w) & = [a^\top x + b^\top y] + u^\top[c - Mx - Ny] + v^\top[d - Px - Qy] + w^\top [-x]\\
& = [a - M^\top u - P^\top v - w]^\top x + [b - N^\top u - Q^\top v]^\top y + [c^\top u + d^\top v]\\
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/2/7/c/27c7bf38d40349d7ff617c76af72268d.png)
;
![\begin{align}
\beta(u,v) & = \inf_{\begin{smallmatrix}x \in \mathbb{R}^n \\y \in \mathbb{R}^m\end{smallmatrix}} l(x,y,u,v,w)\\
& = \inf_{\begin{smallmatrix}x \in \mathbb{R}^n \\y \in \mathbb{R}^m\end{smallmatrix}} [a - M^\top u - P^\top v - w]^\top x + [b - N^\top u - Q^\top v]^\top y + [c^\top u + d^\top v]\\
& = [c^\top u + d^\top v] + \inf_{x \in \mathbb{R}^n} [a - M^\top u - P^\top v - w]^\top x + \inf_{y \in \mathbb{R}^m}[b - N^\top u - Q^\top v]^\top y\\
& = \left\{\begin{array}{rcl}
c^\top u + d^\top v & , & \text{ se } \left\{\begin{array}{rcl}
a - M^\top u - P^\top v - w & = & 0\\
b - N^\top u - Q^\top v & = & 0\\
u\ge 0;\, w \ge 0 & &
\end{array}\right.\\
-\infty & , & \text{ em outros casos}
\end{array}\right.
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/c/a/4/ca47a18db9dc1c7e00783500dbc1ba08.png)




.![\inf_{x \in C} f(x) = - \sup_{x \in C} [-f(x)]](http://upload.wikimedia.org/wikibooks/pt/math/6/5/2/6521351f9530c37b50f51d28d9f58d8f.png)


![\begin{align}
\beta(u,v) & = \inf_{x \in \mathbb{R}^n} l(x,u,v)\\
& = \inf_{x \in \mathbb{R}^n} [c^\top x - u^\top x + v^\top(b-Ax)]\\
& = b^\top v + \inf_{x \in \mathbb{R}^n} [c - u - A^\top v]^\top x\\
& = \left\{\begin{array}{rcl}
b^\top v & , & \text{ se } c - u - A^\top v = 0\\
-\infty & , & \text{ em outros casos}
\end{array}\right.
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/8/c/b/8cbefbcca9d38c1a747a20f5c246225f.png)




![\begin{align}
\beta(y) & = \inf_{v \in \mathbb{R}^m} l(v,y)\\
& = \inf_{v \in \mathbb{R}^m} [-b^\top v + y^\top (A^\top v - c)]\\
& = -c^\top y + \inf_{v \in \mathbb{R}^m} [(Ay-b)^\top v]\\
& = \left\{\begin{array}{rcl}
-c^\top y & , & \text{ se } Ay-b = 0\\
-\infty & , & \text{ em outros casos}
\end{array}\right.
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/b/8/3/b83fa0a3f47fbb7a4c378e7571e384d4.png)




,
, etc).




é linear (contínua) e o conjunto de restrições forma um conjunto compacto.
![\begin{align}
\beta(u_1,u_2) & = \inf_{x \in \mathbb{R}^2} l(x,u_1,u_2)\\
& = \inf_{x \in \mathbb{R}^2} [-c^\top x + u_1^\top (Ax-b) + u_2^\top (-x)]\\
& = -b^\top u_1 + \inf_{x \in \mathbb{R}^2} [(A^\top u_1 - c - u_2)^\top x]\\
& = \left\{\begin{array}{rcl}
-b^\top u_1 & , & \text{ se } A^\top u_1 - c - u_2 = 0\\
-\infty & , & \text{ em outros casos}
\end{array}\right.
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/7/f/0/7f036e1d0bf910d1274eace09ef4207a.png)









![\begin{align}
\beta(u,v) & = \inf_{x \in \mathbb{R}^n} l(x,u,v)\\
& = \min_{x \in \mathbb{R}^n} l(x,u,v)\\
& = \min_{x \in \mathbb{R}^n} [\frac{1}{2}x^\top Q x + q^\top x + \alpha + u^\top (b - Ax) + v^\top (-x)]\\
& = \min_{x \in \mathbb{R}^n} [\frac{1}{2}x^\top Q x + (q - v - A^\top u)^\top x + u^\top b + \alpha]\\
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/3/2/f/32f10e015c1ddddce3932a76795e7a6b.png)
.![\begin{align}
\beta(u,v) & = \frac{1}{2}\left[Q^{-1} (A^\top u + v - q)\right]^\top Q \left[Q^{-1} (A^\top u + v - q)\right] + (q - v - A^\top u)^\top \left[Q^{-1} (A^\top u + v - q)\right] + u^\top b + \alpha\\
& = \frac{1}{2}(A^\top u + v - q)^\top Q^{-1} (A^\top u + v - q) - (A^\top u + v - q)^\top Q^{-1} (A^\top u + v - q) + u^\top b + \alpha\\
& = \frac{-1}{2}(A^\top u + v - q)^\top Q^{-1} (A^\top u + v - q) + u^\top b + \alpha
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/d/3/e/d3e702bb55e789bc9fd2811953b4cd33.png)






é válida, e foi feita apenas para simplificar as contas.![(P)\left\{\begin{matrix}
\min \frac{1}{2}\left[(x-1)^2 + (y-2)^2\right]\\
x \ge 0; y \ge 0\\
x + y = 1
\end{matrix}\right.](http://upload.wikimedia.org/wikibooks/pt/math/5/b/9/5b9b5ef39a77b36620faf6190b6cd777.png)
![l(x,y,u,v,w) = \frac{1}{2}\left[(x-1)^2 + (y-2)^2\right] - ux - vy + w(1-x-y)](http://upload.wikimedia.org/wikibooks/pt/math/a/7/1/a715116e063b204e5b72304608562e23.png)
![\begin{align}
\beta(u,v,w) & = \inf_{\begin{smallmatrix}x \in \mathbb{R}\\y \in \mathbb{R} \end{smallmatrix}} l(x,y,u,v,w)\\
& = \inf_{\begin{smallmatrix}x \in \mathbb{R}\\y \in \mathbb{R} \end{smallmatrix}} \left[\frac{1}{2}\left[(x-1)^2 + (y-2)^2\right] - ux - vy + w(1-x-y)\right]\\
& = \inf_{\begin{smallmatrix}x \in \mathbb{R}\\y \in \mathbb{R} \end{smallmatrix}} \left[\frac{1}{2}\left[(x-1)^2 + (y-2)^2\right] - (u+w)x - (v+w)y + w\right]
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/c/1/0/c108d43e5161cb3d7a190ea144e18da0.png)
tem-se:

![\begin{align}
\beta(u,v,w) & = \frac{1}{2}\left[\left((u+w+1)-1\right)^2 + \left((v+w+2)-2\right)^2\right] - (u+w)(u+w+1) - (v+w)(v+w+2) + w\\
& = \frac{1}{2}\left[(u+w)^2 + (v+w)^2\right] - (u+w)(u+w+1) - (v+w)(v+w+2) + w\\
& = \frac{-1}{2}\left[(u+w)^2 + (v+w)^2\right] - (u+w) - 2(v+w) + w\\
& = \frac{-1}{2}\left[(u+w)^2 + (v+w)^2\right] - u - 2v - 2w
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/9/f/3/9f310adefef342e94dc9e1318368d627.png)

![(D)\left\{\begin{matrix}
\min \frac{1}{2}\left[(u+w)^2 + (v+w)^2\right] + u + 2(v + w)\\
u \ge 0;\, v \ge 0;\, w \in \mathbb{R}^m\\
\end{matrix}\right.](http://upload.wikimedia.org/wikibooks/pt/math/7/6/c/76c87a1674e6ef671efad9377cf76219.png)

e escolha
.


![(P_{ \bar{u},\bar{v},\bar{w} })\left\{\begin{matrix}
\min \frac{1}{2}\left[(x-1)^2 + (y-2)^2 + x + y - 1\right]\\
x \in \mathbb{R};\,y \in \mathbb{R}
\end{matrix}\right.](http://upload.wikimedia.org/wikibooks/pt/math/9/4/8/948e864b066ce9b06a86363b27e555a4.png)

e
. De acordo com a teoria desenvolvida, a solução
do problema é também solução do problema original, pois o produto é igual a zero (ver condições da proposição).






![\begin{align}
\beta(u,v) & = \inf_{x \in \mathbb{R}^5} l(x,u,v)\\
& = \inf_{x \in \mathbb{R}^5} [c^\top x - u^\top x + v^\top (b-Ax)]\\
& = \inf_{x \in \mathbb{R}^5} b^\top v + (c - u - A^\top v)^\top x\\
& = \left\{\begin{array}{rcl}
b^\top v & , & \text{ se } c - u - A^\top v = 0\\
-\infty & , & \text{ em outros casos}
\end{array}\right.
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/9/6/4/96446d5945e9c3372b97d8f9fab59d6c.png)




é assumido quando
for um dos cinco vértices. Através de simples verificação, comprova-se que o ponto de máximo é
. Conforme a teoria, este ponto é uma solução do problema dual 
, ou seja, 
, ou seja, 
, ou seja, 
.
(comprovando 1)

. Resta usar a informação da propriedade (4) para obter
. O sistema 
e
.
satisfazem todas as propriedades, então
é solução do problema 
![\begin{align}
\beta(u,v) & = \inf_{x \in \mathbb{R}^5} l(x,u,v)\\
& = \inf_{x \in \mathbb{R}^5} [c^\top x - u^\top x + v^\top (Ax-b)]\\
& = \inf_{x \in \mathbb{R}^5} -b^\top v + (c - u + A^\top v)^\top x\\
& = \left\{\begin{array}{rcl}
-b^\top v & , & \text{ se } c - u + A^\top v = 0\\
-\infty & , & \text{ em outros casos}
\end{array}\right.
\end{align}](http://upload.wikimedia.org/wikibooks/pt/math/b/a/0/ba060c4e9920f3391d1b7338999f513d.png)



.

![\begin{cases}
\text{min} \frac{1}{2}[(x+5)^2+(y-2)^2] \\
x\ge 0 \ y\ge 0
\end{cases}](http://upload.wikimedia.org/wikibooks/pt/math/3/e/e/3eec51540edf140c89854cfba698da9d.png)
![l(x,y,u,v)=\frac{1}{2}[(x+5)^2+(y-2)^2] +u(-x)+v(-y)](http://upload.wikimedia.org/wikibooks/pt/math/f/d/4/fd4d784008a5cc61a4bba01690d23467.png)

![\beta(u,v)= \inf_{\begin{smallmatrix}x \in \mathbb{R} \\y \in \mathbb{R}\end{smallmatrix}}
[\frac{1}{2}[(x+5)^2+(y-2)^2]-ux-vy]](http://upload.wikimedia.org/wikibooks/pt/math/9/6/9/969de244c78a94a0c6f07b393e2d35e4.png)

e 
![\beta(u,v)= \frac{1}{2}[(u-5+5)^2+(v+2-2)^2]-u(u-5)-v(v+2)](http://upload.wikimedia.org/wikibooks/pt/math/b/f/d/bfd97b3b815b038f9f0774bcd910a1cc.png)
![\beta(u,v)= \frac{1}{2}[u^2+v^2]-u^2+5u-v^2-2v)](http://upload.wikimedia.org/wikibooks/pt/math/0/7/1/07113c53340ee8e1fb853196cc051d24.png)
![\beta(u,v)= -[\frac{1}{2}(u^2+v^2)-5u+2v)]](http://upload.wikimedia.org/wikibooks/pt/math/a/7/3/a73b188dcd996b7bb2389be2d00af54a.png)
![\begin{cases}
\text{max} -[\frac{1}{2}(u^2+v^2)-5u+2v] \\
u\ge 0 \ v\ge 0
\end{cases}](http://upload.wikimedia.org/wikibooks/pt/math/3/c/9/3c939c19043a3c746e3cc9388a131973.png)








e
.
,
,
e
.
é a solução dual.![\begin{cases}
\text{min}\ \frac{1}{2}[(x+5)^2+(y-2)^2] +5(-x) \\
x,y\in \mathbb{R}
\end{cases}](http://upload.wikimedia.org/wikibooks/pt/math/7/8/b/78b925c4804464845e4af545ec89a575.png)
é a solução primal.
é um candidato a ponto de sela.
e o valor ótimo do dual também é 
dada por
.
, dada por

, com
;
é definida positiva;
tal que a matriz
.
é definida positiva. Logo, para concluir a outra implicação, basta notar que para qualquer 


, e denotando
, segue que para cada
e algum
, com
, tais que
estão na esfera unitária, que é compacta, a sequência
tem algum ponto de acumulação, por exemplo
(pois
e

, ou seja, se
. Logo,

tal que
;
, o jacobiano de 
dada por

, com

.
é definida positiva.
é dada por
. Logo, a hipótese equivale a dizer que
é definida positiva.
definida por

para todo ponto
, e qualquer que seja
.

![d^\top \left[\nabla_x^2 l_{\rho_0} (x,\bar{u})\right] d \ge \delta_0 \|d\|^2](http://upload.wikimedia.org/wikibooks/pt/math/c/8/4/c841ada297c4c2cbc2a9ea235bd32b5e.png)
são todos positivos.
é fortemente convexa, basta recordar-se de dois fatos:
é convexa se, e somente se,
é convexa, ou seja,
.![d^\top \left[\nabla_x^2 l_{\rho_0} (x,\bar{u})\right] d - \delta_0 \|d\|^2 \ge 0](http://upload.wikimedia.org/wikibooks/pt/math/2/d/e/2de16e064814d7f5baa92130431b8b3e.png)

e
.
Se
, pare:

e 
denota as soluções do problema;

.