Newton法拟Newton法

1 Newton 法

考虑无约束优化问题 $min_{x \in R^{n}} f (x),$ 设 $x^{*}$ 是 $f$ 的极小值点. 设 $f$ 有二阶连续偏导数, 进行 Taylor 展开: $\begin{matrix} (1.1) & f (x) = f (x^{(k)}) + g_{k}^{T} (x - x^{(k)}) + \frac{1}{2} (x - x^{(k)})^{T} H (x^{(k)}) (x - x^{(k)}), \end{matrix}$ 这里 $g_{k} = g (x^{(k)}) = \nabla f (x^{(k)})$ , $H (x) = {[\frac{\partial^{2} f}{\partial x_{i} \partial x_{j}}]}_{n \times n}$ 为 Hessian 矩阵, $H_{k} = H (x^{(k)})$ . $f (x)$ 有极值的必要条件是 $\nabla f (x^{*}) = 0$ , 且 $H (x^{*})$ 正定.

接下来需要推导迭代方式, 假设从 $x^{(k)}$ 出发得到了 $x^{(k + 1)}$ 就是极小值点, 也即 $g_{k + 1} = 0$ . 而由 (1.1) 左右同时取梯度: $\begin{matrix} (1.2) & \nabla f (x) = g_{k} + H_{k} (x - x^{(k)}) . \end{matrix}$ ^[1] 从而再带入 $x^{(k + 1)}$ : $g_{k} + H_{k} (x^{(k + 1)} - x^{(k)}) = 0 \Rightarrow x^{(k + 1)} = x^{(k)} - H_{k}^{- 1} g_{k},$ 然后记 $p_{k} = H_{k}^{- 1} g_{k}$ .

Newton 法

输入 $f (x), g (x) = \nabla f (x), H (x)$ , 精度要求 $ε$
输出 $f (x)$ 的极小值点 $x^{*}$

取 $x^{(0)}$ , $k = 0$ .
计算 $g_{k} = g (x^{(k)})$ .
若 $| | g_{k} | | < ε$ , 停止计算, $x^{*} = x^{(k)}$ .
计算 $H_{k} = H (x^{(k)})$ , 根据 $H_{k} p_{k} = - g_{k}$ 求出 $p_{k}$ .
取 $x^{(k + 1)} = x^{(k)} + p_{k}$ .
取 $k \leftarrow k + 1$ , 转 2.

2 拟 Newton 法

上述 Newton 法最后需要计算 $H^{- 1}$ , 计算量较大, 希望通过一个 $G_{k} = G (x^{(k)})$ 来近似代替 $H_{k}^{- 1}$ .
首先考查一下 $H_{k}$ 满足的条件. 对 (1.2), 取 $x = x^{(k + 1)}$ : $g_{k + 1} - g_{k} = H_{k} (x^{(k + 1)} - x^{(k)}) .$ 记 $y_{k} = g_{k + 1} - g_{k}, δ_{k} = x^{(k + 1)} - x^{(k)}$ , 则 $\begin{matrix} (2.1) & y_{k} = H_{k} δ_{k} \Rightarrow H_{k}^{- 1} y_{k} = δ_{k} . \end{matrix}$ (这称为拟 Newton 条件).

当 $H_{k}$ 正定, $H_{k}^{- 1}$ 也是正定的. 由于 Newton 法中搜索方向是 $p_{k} = - H_{k}^{- 1} g_{k}$ , 因此该方向上的点 $x$ 满足 $x = x^{(k)} + λ p_{k} = x^{(k)} - λ H_{k}^{- 1} g_{k},$ 因此 $f (x)$ 的 Taylor 展开近似为 $f (x) = f (x^{(k)}) - λ g_{k}^{T} H_{k}^{- 1} g_{k} .$ 而 $H_{k}^{- 1}$ 正定, 总有 $g_{k}^{T} H_{k}^{- 1} g_{k} > 0$ , 当 $λ > 0$ 充分小, 总有 $f (x) < f (x^{(k)})$ . 在拟 Newton 法中, $G_{k}$ 同样需要满足正定和拟Newton条件: $G_{k + 1} y_{k} = δ_{k} .$

2.1 DFP 算法

^[2]

现在假设 $G_{k + 1}$ 的更新公式为 $G_{k + 1} = G_{k} + P_{k} + Q_{k}$ ( $P_{k}, Q_{k}$ 为两个附加项), 同右乘 $y_{k}$ 后考虑到拟 Newton条件, 可以让 $P_{k} y_{k} = δ_{k}, Q_{k} y_{k} = - G_{k} y_{k}$ . 例如, 取 $P_{k} = \frac{δ_{k} δ_{k}^{T}}{δ_{k}^{T} y_{k}}, Q_{k} = - \frac{G_{k} y_{k} y_{k}^{T} G_{k}}{y_{k}^{T} G_{k} y_{k}} .$ 下面梳理这个算法

DFP 算法

输入 $f (x), g (x) = \nabla f (x)$ , $ε$
输出 $x^{*}$

选定 $x^{(0)}$ , 正定对称矩阵 $G_{0}$ , $k = 0$ .
计算 $g_{k} = g (x^{(k)})$ . 若 $| | g_{k} | | < ε$ , 停止计算.
取 $p_{k} = - G_{k} g_{k}$ .
一维搜索: 求 $λ_{k}$ 使得 $f (x^{(k)} + λ_{k} p_{k}) = min_{λ \geq 0} f (x^{(k)} + λ p_{k}) .$
取 $x^{(k + 1)} = x^{(k)} + λ_{k} p_{k}$ .
若 $| | g_{k + 1} | | = | | g (x^{(k + 1)}) | | < ε$ , 停止计算, 否则 $\begin{matrix} (3.1) & G_{k + 1} = G_{k} + \frac{δ_{k} δ_{k}^{T}}{δ_{k}^{T} y_{k}} - \frac{G_{k} y_{k} y_{k}^{T} G_{k}}{y_{k}^{T} G_{k} y_{k}} . \end{matrix}$

2.2 BFGS 算法

^[3]

这是当下最常用的拟 Newton 算法. 在上述 DFP 算法中, 我们用 $G_{k}$ 逼近 $H^{- 1}$ ; 我们现在考虑用 $B_{k}$ 逼近 $H$ . 此时拟 Newton 条件变为 $B_{k + 1} δ_{k} = y_{k}$ . 同样令 $B_{k + 1} = B_{k} + P_{k} + Q_{k},$ 同时右乘 $δ_{k}$ , 然后考虑 $P_{k} δ_{k} = y_{k}, Q_{k} δ_{k} = - B_{k} δ_{k}$ 然后给出

BFGS 算法

输入 $f (x), g (x) = \nabla f (x)$ , $ε$
输出 $x^{*}$

选定 $x^{(0)}$ , 正定对称矩阵 $B_{0}$ , $k = 0$ .
计算 $g_{k} = g (x^{(k)})$ . 若 $| | g_{k} | | < ε$ , 停止计算.
由 $B_{k} p_{k} = - g_{k}$ 求出 $p_{k}$ .
一维搜索: 求 $λ_{k}$ 使得 $f (x^{(k)} + λ_{k} p_{k}) = min_{λ \geq 0} f (x^{(k)} + λ p_{k}) .$
取 $x^{(k + 1)} = x^{(k)} + λ_{k} p_{k}$ .
若 $| | g_{k + 1} | | = | | g (x^{(k + 1)}) | | < ε$ , 停止计算, 否则 $\begin{matrix} (4.1) & B_{k + 1} = B_{k} + \frac{y_{k} y_{k}^{T}}{y_{k}^{T} δ_{k}} - \frac{B_{k} δ_{k} δ_{k}^{T} B_{k}}{δ_{k}^{T} B_{k} δ_{k}} . \end{matrix}$

2.3 Broyden 类算法

根据 (4.1), 带入 $G_{k} = B_{k}^{- 1}, G_{k + 1} = B_{k + 1}^{- 1}$ , 然后应用 Sherman-Morrison公式得到 $G_{k + 1} = (I - \frac{δ_{k} y_{k}^{T}}{δ_{k}^{T} y_{k}}) G_{k} {(I - \frac{δ_{k} y_{k}^{T}}{δ_{k}^{T} y_{k}})}^{T} + \frac{δ_{k} δ_{k}^{T}}{δ_{k}^{T} y_{k}},$ 将这样的 $G_{k}$ 记作 $G^{BFGS}$ , 与 $G^{DFP}$ 结合: $G_{k + 1} = α G^{DFP} + (1 - α) G^{BFGS}, 0 \leq α \leq 1.$

这里的写法可能稍有误导, $H_{k} (x - x^{(k)})$ 表示 $H (x^{(k)}) \cdot (x - x^{(k)})$ . ↩︎
Davidon-Fletcher-Powell 算法 ↩︎
Broyden-Fletcher-Goldfarb-Shanno 算法 ↩︎