Lagrange 对偶

Lagrange 对偶是优化损失函数中的重要方法, 在很多时候它将原始问题转换为等价的对偶问题. 对偶后的问题可能有凸性 (容易找到全局最优解)、降维、简化等优点.

1 原始问题

f(x),ci(x),hj(x)Rn 上的连续可微函数. 一般的最优化问题写为minxRn f(x)s.t. ci(x)0,i=1,,k,(1.1) hj(x)=0,j=1,,l.
定义广义 Lagrange 函数 (generalized Lagrange function): (1.2)L(x,α,β)=f(x)+i=1kαici(x)+j=1lβjhj(x).
这里 x=(x(1),,x(n))TRn, αi,βj 是 Lagrange 乘子, αi0. 定义 θP(x)=maxα,β:αi0L(x,α,β).
(用 P 表示原始问题)

命题

极小化问题 (1.3)minxθP(x)=minxmaxα,β:αi0L(x,α,β) 与 (1.1) 等价. 将它称为广义 Lagrange 函数的 极小极大问题.

2 对偶问题

定义 (1.4)θD(α,β)=minxL(x,α,β),

对偶问题

定义原始问题的 对偶问题maxα,β:αi0θD(α,β)=maxα,β:αi0minxL(x,α,β).(1.5)s.t.αi0,i=1,,k.
(称为极大极小问题), 而对偶问题的值为 d=maxα,β:αi0θD(α,β).

下面探讨原始问题与对偶问题的关系.

定理 1

若两问题都有最优值, 则 d=maxα,β:αi0minxL(x,α,β)minxmaxα,β:αi0L(x,α,β)=p.

推论

如果上述定理的 d=p, 且两问题都有一组可行解 x,α,β, 则这是两个问题共同的最优解.

定理 2

如果 f(x),ci(x) 是凸函数, hj(x) 是仿射函数[1], ci(x) 的约束严格可行(x,i:ci(x)<0), 则存在原始问题的解 x 和对偶问题的解 α,β, 且 p=d=L(x,α,β).

这里的条件被称为Slater 条件.

定理 3 (KKT 条件)

条件同定理 2. 则 x,α,β 分别是两个问题解的充分必要条件xL(x,α,β)=0,(对偶互补条件)αici(x)=0,i=1,,k,ci(x)0,i=1,,k,αi0,i=1,,k,hj(x)=0,j=1,,l.

对偶互补条件告诉我们如果 αi>0, 则 ci(x)=0.


  1. 仿射函数(Affine function): 向量值函数形如 f(x)=Ax+b. ↩︎