10 条件随机场

1 概率无向图模型

1.1 定义

又称 Markov 随机场.
回顾图 $G = (V, E)$ 由结点和边构成, 不考虑方向时为无向图. 概率图模型 是图表示的概率分布: 假设有概率分布 $P (Y), Y \in Y$ . 在图 $G$ 中, 结点构成随机变量: $Y = (Y_{v})_{v \in V}$ ; 边表示随机变量之间的概率依赖关系. 接下来定义几个性质:

成对 Markov 性: 任意没有边连接的结点 $u, v$ , 对应随机变量 $Y_{u}, Y_{v}$ , 其他结点的集合记为 $O$ , 则有条件独立性: $P (Y_{u}, Y_{v} | Y_{O}) = P (Y_{u} | Y_{O}) P (Y_{v} | Y_{O}) .$
局部 Markov 性: $\forall v \in V$ , 所有与 $v$ 有边连接的结点记为 $W$ , 此外的所有结点记为 $O$ , 则 $P (Y_{v}, Y_{O} | Y_{W}) = P (Y_{v} | Y_{W}) P (Y_{O} | Y_{W}) .$ 由于 $P (Y_{v}, Y_{O} | Y_{W}) = P (Y_{O} | Y_{W}) P (Y_{v} | Y_{O}, Y_{W})$ , 因此当 $P (Y_{O} | Y_{W}) > 0$ , 等价于 $P (Y_{v} | Y_{W}) = P (Y_{v} | Y_{O}, Y_{W}) .$
全局 Markov 性: 假设一个集合 $C$ , 将 $G$ 中的结点分开后取任意两个集合 $A, B$ , 则 $P (Y_{A}, Y_{B} | Y_{C}) = P (Y_{A} | Y_{C}) P (Y_{B} | Y_{C}) .$

这三个性质是等价的.

Pasted image 20250528220345.png|400

概率无向图模型

$G = (V, E)$ 表示 $P (Y)$ , 且满足上述三个条件的任何一个.

1.2 因子分解

团, 最大团

任何两个结点均有边连接的结点子集称为团; 如果一个团中不能再加进任何结点成为更大的团, 则它是最大团.

最大团显然不唯一, 也不代表元素个数要最多.

因子分解 (factorization) 就是把 $P (Y)$ 表示成最大团上随机变量的函数的积的操作. 也即 $P (Y) = \frac{1}{Z} \prod_{C} Ψ_{C} (Y_{C}),$ 这里 $Z = \sum_{Y} \prod_{C} Ψ_{C} (Y_{C})$ 是规范化因子, $Ψ_{C} (Y_{C})$ 是势函数需要恒正, 例如 $Ψ_{C} (Y_{C}) = \exp {- E (Y_{C})}$ . 它的存在性由 Hammersley-Clifford 定理保证.

2 条件随机场

2.1 定义

条件随机场

随机变量 $Y$ 构成一个由 $G = (V, E)$ 表示的 Markov 随机场, 即 $P (Y_{v} | X, Y_{w}, w \neq v) = P (Y_{v} | X, Y_{w}, w \sim v), \forall v,$ (这里 $w \sim v$ 表示与 $v$ 连接的所有结点 $w$ ), 则称 $P (Y | X)$ 为条件随机场.

我们主要考虑一类特别的图: 线性链. 即 $G = (V = {1, \dots, n}, E = {(i, i + 1)}), 1 \leq i \leq n - 1.$
定义对应的条件随机场:

线性链条件随机场

$X = (X_{1}, \dots, X_{n}), Y = (Y_{1}, \dots, Y_{n})$ 满足 $P (Y_{i} | X, Y_{1}, \dots, Y_{i - 1}, Y_{i + 1}, \dots, Y_{n}) = P (Y_{i} | X, Y_{i - 1}, Y_{i + 1}), 1 \leq i \leq n .$
( $i = 1, n$ 时只考虑单边)

Pasted image 20250529071724.png|300
在标注问题中, $X$ 表示输入观测序列, $Y$ 表示对应的输出标记序列.

2.2 参数化形式

对线性链条件随机场 $P (Y | X)$ 进行因子分解:

线性链条件随机场的参数化形式

当 $X = x$ , $\begin{matrix} (2.1) & P (y | x) = \frac{1}{Z (x)} \exp (\sum_{i, k} λ_{k} t_{k} (y_{i - 1}, y_{i}, x, i) + \sum_{i, l} μ_{l} s_{l} (y_{i}, x, i)), \end{matrix}$ 其中 $Z (x)$ 是规范化因子, 为对上述 exp 关于 $y$ 求和. $t_{k}, s_{l}$ 是特征函数, $λ_{k}, μ_{l}$ 是对应权重.
另外, 这里的 $t_{k}$ 是转移特征(因为项里面有 $y_{i - 1}, y_{i}$ ), $s_{l}$ 是状态特征(因为只有 $y_{i}$ )

2.3 简化形式

假设有 $K_{1}$ 个转移特征, $K_{2}$ 个状态特征, $K = K_{1} + K_{2}$ , 将 $t, s$ 合并为 $f_{k} (y_{i - 1}, y_{i}, x, i) = {\begin{aligned} t_{k} (y_{i - 1}, y_{i}, x, i), k = 1, \dots, K_{1}, \\ s_{l} (y_{i}, x, i), k = K_{1} + 1, \dots, K . \end{aligned}$
在所有位置 $i$ 求和: $f_{k} (y, x) = \sum_{i = 1}^{n} f_{k} (y_{i - 1}, y_{i}, x, i) .$ 将系数 $λ_{k}, μ_{l}$ 也统一表示为 $w_{k}, 1 \leq k \leq K$ . 因此 (2.1) 表示为 $\begin{matrix} (2.2) & P (y | x) = \frac{1}{Z (x)} \exp \sum_{k = 1}^{K} w_{k} f_{k} (y, x) . \end{matrix}$
最后定义向量表示 $w = (w_{1}, \dots, w_{K})^{T}, F (y, x) = (f_{1} (y, x), \dots, f_{K} (y, x))^{T}$ , 则 $P_{w} (y | x) = \frac{\exp (w \cdot F (y, x))}{Z_{w} (x)}, Z_{w} (x) = \sum_{y} \exp (w \cdot F (y, x)) .$

2.4 矩阵形式

在标记序列 ${y_{i}}$ 中额外加入 $y_{0}, y_{n + 1}$ 表示起始和终止状态. 基于上面的简化形式, 定义矩阵 $M_{i} (x) = [M_{i} (y_{i - 1}, y_{i} | x)],$ 其中 $\begin{aligned} M_{i} (y_{i - 1}, y_{i} | x) & = \exp (W_{i} (y_{i - 1}, y_{i} | x)), \\ W_{i} (y_{i - 1}, y_{i} | x) & = \sum_{k = 1}^{K} w_{k} f_{k} (y_{i - 1}, y_{i}, x, i) . \end{aligned}$
这样 $\begin{aligned} P_{w} (y | x) & = \frac{1}{Z_{w} (x)} \exp (\sum_{k = 1}^{K} w_{k} f_{k} (y, x)) \\ = \frac{1}{Z_{w} (x)} \exp (\sum_{k = 1}^{K} \sum_{i = 1}^{n} w_{k} f_{k} (y_{i - 1}, y_{i}, x, i)) \\ = \frac{1}{Z_{w} (x)} \exp (\sum_{i = 1}^{n} W_{i} (y_{i - 1}, y_{i} | x)) \\ = \frac{1}{Z_{w} (x)} \prod_{i = 1}^{n + 1} M_{i} (y_{i - 1}, y_{i} | x), \end{aligned}$ $Z_{w} (x)$ 是规范化因子 $[M_{1} (x) \dots M_{n + 1} (x)]_{start, stop}$ , 恰恰就是所有从 start 出发到 stop, 经过所有 $y_{1}, \dots, y_{n}$ 的概率 $\prod_{i = 1}^{n + 1} M_{i} (y_{i - 1}, y_{i} | x)$ 之和.

例子

如图, $y_{1}, y_{2}, y_{3} \in {1, 2}$ , 假设 $y_{0} = start = 1, y_{4} = stop = 1$ , 各个位置的随机矩阵定义为 $M_{1} (x) = [\begin{matrix} a_{01} & a_{02} \\ 0 & 0 \end{matrix}], M_{2} (x) = [\begin{matrix} b_{11} & b_{12} \\ b_{21} & b_{22} \end{matrix}], M_{3} (x) = [\begin{matrix} c_{11} & c_{12} \\ c_{21} & c_{22} \end{matrix}], M_{4} (x) = [\begin{matrix} 1 & 0 \\ 1 & 0 \end{matrix}] .$ 如图所示.
Pasted image 20250529081047.png|300
则 start 到 stop 的各路径的概率分别为 $\begin{array}{r} a_{01} b_{11} c_{11} a_{01} b_{11} c_{12} a_{01} b_{12} c_{21} a_{01} b_{12} c_{22} \\ a_{02} b_{21} c_{11} a_{02} b_{21} c_{12} a_{02} b_{22} c_{21} a_{02} b_{22} c_{22} \end{array}$ 而计算 $M_{1} (x) M_{2} (x) M_{3} (x) M_{4} (x)$ , 它的 $(start, stop) = (1, 1)$ 位置的元素恰好是这个值.

3 概率计算问题

给定 $P (Y | X)$ , 输入 $x$ 和输出 $y$ , 计算 $P (Y_{i} = y_{i} | x), P (Y_{i - 1} = y_{i - 1}, Y_{i} = y_{i} | x)$ 以及相应的数学期望.

3.1 前向后向算法概率计算

定义前向向量 $α_{0} (y_{0} | x) = {\begin{aligned} 1, y_{0} = start, \\ 0, else, \end{aligned}$ 然后定义 $α_{i}^{T} (y_{i} | x) = α_{i - 1}^{T} (y_{i - 1} | x) [M_{i} (y_{i - 1}, y_{i} | x)], i = 1, \dots, n + 1,$ 即 $α_{i}^{T} (x) = α_{i - 1}^{T} (x) M_{i} (x) .$
这里 $α_{i} (y_{i} | x)$ 表示从 1 走到 $i$ , 在位置 $i$ 的标记是 $y_{i}$ ; $α_{i} (x) \in R^{m}$ ( $m$ 是 $y_{i}$ 的可能取值个数) 的概率. 类似地定义后向向量 $β_{n + 1} (y_{n + 1} | x) = {\begin{aligned} 1, y_{n + 1} = stop, \\ 0, else, \end{aligned}$

β_{i} (y_{i} | x) = [M_{i + 1} (y_{i}, y_{i + 1} | x)] β_{i + 1} (y_{i + 1} | x)

β_{i} (x) = M_{i + 1} (x) β_{i + 1} (x) .

由此 $\begin{aligned} (3.1) & P (Y_{i} = y_{i} | x) = \frac{α_{i}^{T} (y_{i} | x) β_{i} (y_{i} | x)}{Z (x)}, \\ (3.2) & P (Y_{i - 1} = y_{i - 1}, Y_{i} = y_{i} | x) = \frac{α_{i - 1}^{T} (y_{i - 1} | x) M_{i} (y_{i - 1}, y_{i} | x) β_{i} (y_{i} | x)}{Z (x)}, \end{aligned}$
其中 $Z (x) = α_{n}^{T} (x) 1 = 1 β_{1} (x)$ .

3.2 期望计算

首先计算特征函数 $f_{k}$ 关于条件分布 $P (Y | X)$ 的数学期望. 应用 (3.2): $\begin{aligned} E_{P (Y | X)} [f_{k}] & = \sum_{y} P (y | x) f_{k} (y, x) \\ = \sum_{i = 1}^{n + 1} \sum_{y_{i - 1} y_{i}} f_{k} (y_{i - 1}, y_{i}, x, i) \frac{α_{i - 1}^{T} (y_{i - 1} | x) M_{i} (y_{i - 1}, y_{i} | x) β_{i} (y_{i} | x)}{Z (x)} \end{aligned}$
假设经验分布为 $\tilde{P} (X)$ , 则 $f_{k}$ 关于 $P (X, Y)$ 的期望为 $\begin{aligned} E_{P (X, Y)} [f_{k}] & = \sum_{x, y} P (x, y) \sum_{i = 1}^{n + 1} f_{k} (y_{i - 1}, y_{i}, x, i) \\ = \sum_{x} \tilde{P} (x) \sum_{y} P (y | x) \sum_{i = 1}^{n + 1} f_{k} (y_{i - 1}, y_{i}, x, i) \\ = \sum_{x} \tilde{P} (x) \sum_{i = 1}^{n + 1} \sum_{y_{i - 1}, y_{i}} f_{k} \frac{α_{i - 1}^{T} M_{i} β_{i}}{Z (x)} . \end{aligned}$

4 学习算法

4.1 改进的迭代尺度法

假设我们根据训练集得到经验分布 $\tilde{P} (X, Y)$ , 则对数似然 $L (w) = L_{\tilde{P}} (P_{w}) = \log \prod_{x, y} P_{w} (y | x)^{\tilde{P} (x, y)} = \sum_{x, y} \tilde{P} (x, y) \log P_{w} (y | x) .$ 而若 $P$ 由因子分解式给出: $\begin{aligned} L (w) & = \sum_{x, y} [\tilde{P} (x, y) \sum_{k = 1}^{K} w_{k} f_{k} (y, x) - \tilde{P} (x, y) \log Z_{w} (x)] \\ = \sum_{j = 1}^{N} \sum_{k = 1}^{K} w_{k} f_{k} (y_{j}, x_{j}) - \sum_{j = 1}^{N} \log Z_{w} (x_{j}) \end{aligned}$
为了高效地道对数似然的极大值, 采用迭代的方法不断优化对数似然函数改变量的下界. 假设当前参数为 $w = (w_{1}, \dots, w_{K})^{T}$ , 更新增量为 $δ = (δ_{1}, \dots, δ_{K})^{T}$ , 则需要求解以下方程(对转移和状态特征分别给出): $\begin{aligned} E_{\tilde{P}} [t_{k}] & = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} t_{k} (y_{i - 1}, y_{i}, x, i) \\ (4.1) & = \sum_{x, y} \tilde{P} (x) P (y | x) \sum_{i = 1}^{n + 1} t_{k} (y_{i - 1}, y_{i}, x, i) \exp (δ_{k} T (x, y)), \end{aligned}$ 以及 $\begin{matrix} (4.2) & E_{\tilde{P}} [s_{l}] = \sum_{x, y} \tilde{P} (x) P (y | x) \sum_{i = 1}^{n} s_{l} (y_{i}, x, i) \exp (δ_{K_{1} + l} T (x, y)), \end{matrix}$ 这里 $T$ 是 $(x, y)$ 中出现的特征数总和 $\begin{matrix} (4.3) & T (x, y) = \sum_{k} f_{k} (y, x) = \sum_{k = 1}^{K} \sum_{i = 1}^{n + 1} f_{k} (y_{i - 1}, y_{i}, x, i) . \end{matrix}$

条件随机场模型学习的改进的迭代尺度法

输入: 特征函数 $t_{1}, \dots, t_{K_{1}}, s_{1}, \dots, s_{K_{2}}$ , 经验分布 $\tilde{P} (x, y)$
输出: 参数估计 $\hat{w}$ 和模型 $P_{\hat{w}}$

取初值 $w_{k} = 0, \forall 1 \leq k \leq K$ .
对每一个 $k$ ,
1. 若 $1 \leq k \leq K_{1}$ , $δ_{k}$ 是方程 $\sum_{x, y} \tilde{P} (x) P (y | x) \sum_{i = 1}^{n + 1} t_{k} (y_{i - 1}, y_{i}, x, i) \exp (δ_{k} T (x, y)) = E_{\tilde{P}} [t_{k}]$ 的解;
2. 若 $K_{1} + 1 \leq k \leq K$ , $δ_{K_{1} + l}$ 是方程 $\sum_{x, y} \tilde{P} (x) P (y | x) \sum_{i = 1}^{n} s_{l} (y_{i}, x, i) \exp (δ_{K_{1} + l} T (x, y)) = E_{\tilde{P}} [s_{l}]$ 的解, 这里 $T (x, y)$ 由 (4.3) 给出.
3. $w_{k} \leftarrow w_{k} + δ_{k}$ .
如果不是所有 $w_{k}$ 都收敛, 重复 2.

这里 $T (x, y)$ 对不同的 $(x, y)$ 取值可能不同. 为此, 定义松弛特征 $s (x, y) = S - \sum_{i = 1}^{n + 1} \sum_{k = 1}^{K} f_{k} (y_{i - 1}, y_{i}, x, i) .$ 选取足够大的常数 $S$ 使 $s (x, y) \geq 0$ 恒成立, 则特征总数取 $S$ . 此时 (4.1) 变为 $\sum_{x, y} \tilde{P} (x) P (y | x) \sum_{i = 1}^{n + 1} t_{k} (y_{i - 1}, y_{i}, x, i) \exp (δ_{k} S) = E_{\tilde{P}} [t_{k}],$ 其中 $\begin{aligned} δ_{k} & = \frac{1}{S} \log \frac{E_{\tilde{P}} [t_{k}]}{E_{P} [t_{k}]}, \\ E_{P} [t_{k}] & = \sum_{x} \tilde{P} (x) \sum_{i = 1}^{n + 1} \sum_{y_{i - 1}, y_{i}} t_{k} (y_{i - 1}, y_{i}, x, i) \frac{α_{i - 1}^{T} (y_{i - 1} | x) M_{i} (y_{i - 1}, y_{i} | x) β_{i} (y_{i} | x)}{Z (x)}, \end{aligned}$ 同理有状态部分的方程改写, 其中 $E_{P} [s_{l}] = \sum_{x} \tilde{P} (x) \sum_{i = 1}^{n} \sum_{y_{i}} s_{l} (y_{i}, x, i) \frac{α_{i}^{T} (y_{i} | x) β_{i} (y_{i} | x)}{Z (x)} .$
在上述算法中, $S$ 由于要取得足够大, 则 $δ$ 增大, 收敛变慢. 为此计算 $T (x) = max_{y} T (x, y) = t$ (由前向后向递推公式看出). 此时更新方程进一步改写为 $\begin{aligned} E_{\tilde{P}} [t_{k}] & = \sum_{x} \tilde{P} (x) \sum_{y} P (y | x) \sum_{i = 1}^{n + 1} t_{k} (y_{i - 1}, y_{i}, x, i) \exp (δ_{k} T (x)) \\ = \sum_{x} \tilde{P} (x) a_{k, t} \exp (δ_{k} t) \\ = \sum_{t = 0}^{T_{max}} a_{k, t} β_{k}^{t}, \end{aligned}$ 这里 $δ_{k} = \log β_{k}$ , 可以用牛顿法求得 $β_{k}$ . 类似地 $E_{\tilde{P}} [s_{l}] = \sum_{t = 0}^{T_{\max}} b_{l, t} γ_{l}^{t}, δ_{l} = \log γ_{l} .$

4.2 拟牛顿法

回顾模型 (2.2), 优化目标函数为 $min_{w \in R^{n}} f (w) = \sum_{x} \tilde{P} (x) \log \sum_{y} \exp \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y),$ 梯度函数为 $g (w) = \sum_{x, y} \tilde{P} (x) P_{w} (y | x) f (x, y) - E_{\tilde{P}} (f) .$
参考 BFGS算法:

条件随机场模型学习的 BFGS 算法

输入特征函数 $f_{1}, \dots, f_{n}$ , 经验分布 $\tilde{P} (X, Y)$
输出 $\hat{w}, P_{\hat{w}} (y | x)$

选定初始点 $w^{(0)}$ , 取正定对称矩阵 $B_{0}$ , $k = 0$ .
$g_{k} = g (w^{(k)})$ . 若 $g_{k} = 0$ 停止计算, 否则转 3.
由 $B_{k} p_{k} = - g_{k}$ 求出 $p_{k}$ .
一维搜索: 求 $λ_{k}$ 使 $f (w^{(k)} + λ_{k} p_{k}) = min_{λ \geq 0} f (w^{(k)} + λ p_{k}) .$
$w^{(k + 1)} = w^{(k)} + λ_{k} p_{k}$ .
$g_{k + 1} = g (w^{(k + 1)})$ . 若 $g_{k + 1} = 0$ 停止计算, 否则 $B_{k + 1} = B_{k} + \frac{y_{k} y_{k}^{T}}{y_{k}^{T} δ_{k}} - \frac{B_{k} δ_{k} δ_{k}^{T} B_{k}}{δ_{k}^{T} B_{k} δ_{k}},$ 其中 $y_{k} = g_{k + 1} - g_{k}$ , $δ_{k} = w^{(k + 1)} - w^{(k)}$ .
$k \leftarrow k + 1$ , 跳转 3.

5 预测算法

给定 $P (Y | X)$ 和输入序列 $x$ , 求条件概率最大的输出序列 $y^{*}$ . 注意到 $y^{*} = \arg max_{y} P_{w} (y | x) = \arg max_{y} \frac{\exp (w \cdot F (y, x))}{Z_{w} (x)} = \arg max_{y} (w \cdot F (y, x)) .$ 等价于求解以下问题 $max_{y} \sum_{i = 1}^{n} w \cdot F_{i} (y_{i - 1}, y_{i}, x),$ 其中 $F_{i} (y_{i - 1}, y_{i}, x) = (f_{1} (y_{i - 1}, y_{i}, x, i), \dots, f_{K} (y_{i - 1}, y_{i}, x, i))^{T}$ 是局部特征向量.

条件随机场预测的维特比算法

输入 $F (x, y), w$ , 观测 $x = (x_{1}, \dots, x_{n})$
输出最优路径 $y^{*} = (y_{1}^{*}, \dots, y_{n}^{*})$

初始化 $δ_{1} (j) = w \cdot F_{1} (y_{0} = start, y_{1} = j, x), 1 \leq j \leq m .$
对 $2 \leq i \leq n$ : $\begin{aligned} δ_{i} (l) & = max_{1 \leq j \leq m} {δ_{i - 1} (j) + w \cdot F_{i} (y_{i - 1} = j, y_{i} = l, x)}, 1 \leq l \leq m, \\ Ψ_{i} (l) & = \arg max_{1 \leq j \leq m} {δ_{i - 1} (j) + w \cdot F_{i} (y_{i - 1} = j, y_{i} = l, x)}, 1 \leq l \leq m . \end{aligned}$
终止: $\begin{aligned} max_{y} (w \cdot F (y, x)) & = max_{1 \leq j \leq m} δ_{n} (j) \\ y_{n}^{*} & = \arg max_{1 \leq j \leq m} δ_{n} (j) . \end{aligned}$
返回路径 $y_{i}^{*} = Ψ_{i + 1} (y_{i + 1}^{*}), n - 1 \geq i \geq 1$ 得到最优路径 $y^{*} = (y_{1}^{*}, \dots, y_{n}^{*})$ .