9 隐 Markov 模型

1 基本概念

1.1 定义

隐 Markov 模型 (Hidden Markov Model, HMM)

这是一个关于时间序列的概率模型, 描述由一个隐藏的 Markov 链随机生成不可观测的状态随机序列, 再由各个状态生成一个观测从而产生观测随机序列的过程. 隐藏 Markov 链随机生成了状态序列; 每个状态产生的一个观测生成的随机序列为观测序列.

设

$Q = {q_{1}, \dots, q_{N}}$ 是所有可能状态的集合, $V = {v_{1}, \dots, v_{M}}$ 是所有可能的观测的集合
在时间长度 $T$ 下有状态序列 $I = (i_{1}, \dots, i_{T})$ 和观测序列 $O = (o_{1}, \dots, o_{T})$
状态转移矩阵 $A = [a_{i j}]_{N \times N}$ , 其中 $a_{i j} = P (i_{t + 1} = q_{j} | i_{t} = q_{i}), 1 \leq i, j \leq N$ ^[1]
观测概率矩阵 $B = [b_{j} (k)]_{N \times M}$ , 其中 $b_{j} (k) = P (o_{t} = v_{k} | i_{t} = q_{j})$ , $1 \leq k \leq M$ , $1 \leq j \leq N$ .
初始状态概率向量 $π = (π_{i})$ , 其中 $π_{i} = P (i_{1} = q_{i}), i = 1, \dots, N$ 是 $t = 1$ 时处于状态 $q_{i}$ 的概率.

因此隐 Markov 模型由 $λ = (A, B, π)$ 决定, 其中 $π, A$ 决定状态序列, $B$ 决定观测序列.

隐 Markov 模型的两个基本假设:

齐次 Markov 性假设: $P (i_{t} | i_{t - 1}, o_{t - 1}, \dots, i_{1}, o_{1}) = P (i_{t} | i_{t - 1}), \forall t .$
观测独立性假设: $P (o_{t} | i_{1 \leq t^{'} \leq T}, o_{t^{'} \neq t}) = P (o_{t} | i_{t}) .$

例子 (盒子和球模型)

盒子	1	2	3	4
红球	5	3	6	8
白球	5	7	4	2

按照下面的方法抽球, 产生一个球的颜色的观测序列:

等概率选择一个盒子, 随机抽一个球
如果当前盒子是 1, 转移到盒子 2; 如果当前盒子是 2 或 3, 分别以概率 0.4 和 0.6 转移到左边/右边的盒子; 如果当前盒子是 4, 以 0.5 的概率转移到 4/3. 然后从盒子里抽一个球
重复 5 次, 得到观测序列 $O = (R, R, W, W, R)$ ( $R$ 代表红, $W$ 代表白).

这里状态序列 $I$ (盒子编号) 是隐藏的, 只有颜色序列可观测. 这里状态集合 $Q = {1, 2, 3, 4}, N = 4$ ; 观测集合为 $V = {R, W}, M = 2$ . 序列长度 $T = 5$ . 初始概率分布为 $π = (0.25, 0.25, 0.25, 0.25)^{T}$ , 状态转移概率分布为 $A = [\begin{matrix} 0 & 1 & 0 & 0 \\ 0.4 & 0 & 0.6 & 0 \\ 0 & 0.4 & 0 & 0.6 \\ 0 & 0 & 0.5 & 0.5 \end{matrix}],$ 观测概率分布为 $B = [\begin{matrix} 0.5 & 0.5 \\ 0.3 & 0.7 \\ 0.6 & 0.4 \\ 0.8 & 0.2 \end{matrix}] .$

1.2 观测序列的生成过程

观测序列的生成

输入隐 Markov 模型 $λ = (A, B, π)$ , 观测序列长度 $T$
输出观测序列 $O = (o_{1}, \dots, o_{T})$

按 $π$ 分布生成 $i_{1}$ , $t = 1$ .
按 $i_{t}$ 的观测概率分布 $b_{i_{t}} (k)$ 生成 $o_{t}$ .
按 $i_{t}$ 的状态转移概率分布 ${a_{i_{t} i_{t + 1}}}$ 生成 $i_{t + 1}$ .
令 $t = t + 1$ ; 若 $t < T$ , 转到 2; 否则终止.

1.3 个基本问题

概率计算问题: 计算 $P (O | λ)$
学习问题: 估计参数 $λ = (A, B, λ)$ , 使 $P (O | λ)$ 最大
预测问题(解码问题): 估计状态序列 $I$ , 使 $P (I | O)$ 最大

2 概率计算算法

2.1 直接计算

直接计算各个概率: 对 $I = (i_{1}, \dots, i_{T})$ , $O = (o_{1}, \dots, o_{T})$ , $P (I | λ) = π_{i_{1}} a_{i_{1} i_{2}} \dots a_{i_{T - 1} i_{T}},$ $P (O | I, λ) = b_{i_{1}} (o_{1}) \dots b_{i_{T}} (o_{T}),$ 从而 $P (O, I | λ) = P (O | I, λ) P (I | λ),$ 最后对 $I$ 求和: $P (O | λ) = \sum_{I} P (O | I, λ) P (I | λ) = \sum_{i_{1}, \dots, i_{T}} π_{i_{1}} \prod_{j = 1}^{T - 1} b_{i_{j}} (o_{j}) a_{i_{j} i_{j + 1}} \cdot b_{i_{T}} (o_{T}) .$ 这个公式是 $O (T N^{T})$ 阶的, 计算量过大.

2.2 前向算法

前向概率

给定模型 $λ$ , 定义前向概率 $\begin{matrix} (2.1) & α_{t} (i) = P (o_{1}, \dots, o_{t}, i_{t} = q_{i} | λ) . \end{matrix}$ (也即给定模型下, $t$ 时刻的观测序列和状态的概率)

观测序列概率的前向算法

输入 $λ, O$
输出 $P (O | λ)$

初值 $α_{1} (i) = π_{i} b_{i} (o_{1}), 1 \leq i \leq N$ .
递推: $α_{t + 1} (i) = [\sum_{j = 1}^{N} α_{t} (j) a_{j i}] b_{i} (o_{t + 1}), 1 \leq i \leq N .$
终止: $P (O | λ) = \sum_{i = 1}^{N} α_{T} (i)$ .

关于第二步, 根据定义 $\sum_{j = 1}^{N} α_{t} (j) a_{i j} = P (o_{1}, \dots, o_{t}, i_{t + 1} = q_{i} | λ)$ , 然后再乘上 $b_{i} (o_{t + 1})$ 就是 $α_{t + 1} (i)$ . 第三步由定义容易得到.
Pasted image 20250604220520.png|250

在每个时刻 $t = 1, \dots, T - 1$ , 都计算 $α_{t + 1} (i)$ 的 $N$ 个值, 可以直接利用之前的 $α_{t} (j)$ , 避免重复计算, 这样计算量从 $O (T N^{T})$ 下降到了 $O (N^{2} T)$ .

例子

考虑盒子和球模型. 设 $Q = {1, 2, 3}$ , $V = {W, R}$ , $A = [\begin{matrix} 0.5 & 0.2 & 0.3 \\ 0.3 & 0.5 & 0.2 \\ 0.2 & 0.3 & 0.5 \end{matrix}], B = [\begin{matrix} 0.5 & 0.5 \\ 0.4 & 0.6 \\ 0.7 & 0.3 \end{matrix}], π = [\begin{matrix} 0.2 \\ 0.4 \\ 0.4 \end{matrix}] .$ $T = 3$ , $O = (R, W, R)$ , 现计算 $P (O | λ)$ . 首先计算初值 $α_{1} (1) = 0.1, α_{1} (2) = 0.16, α_{1} (3) = 0.28 .$ 然后递推计算 $α_{2} (1) = 0.077, α_{2} (2) = 0.1104, α_{2} (3) = 0.0606,$ $α_{3} (1) = 0.04187, α_{3} (2) = 0.03551, α_{3} (3) = 0.05284,$ 终止 $P (O | λ) = \sum_{i = 1}^{3} α_{3} (i) = 0.13022 .$

2.3 后向算法

后向概率

定义 $\begin{matrix} (2.2) & β_{t} (i) = P (o_{t + 1}, \dots, o_{T} | i_{t} = q_{i}, λ) . \end{matrix}$

观测序列概率的后向算法

输入 $λ, O$
输出 $P (O | λ)$

$β_{T} (i) = 1$
对 $t = T - 1, \dots, 1$ : $β_{t} (i) = \sum_{j = 1}^{N} a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j), 1 \leq i \leq N .$
$P (O | λ) = \sum_{i = 1}^{N} π_{i} b_{i} (o_{1}) β_{1} (i) .$

Pasted image 20250604222653.png|250
根据前向和后向概率, 可以统一 $P (O | λ) = \sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j), 1 \leq t \leq T - 1.$

2.4 一些概率与期望的计算

记 $γ_{t} (i) = P (i_{t} = q_{i} | O, λ)$ . 事实上 $γ_{t} (i) = \frac{P (i_{t} = q_{i}, O | λ)}{P (O | λ)} = \frac{α_{t} (i) β_{t} (i)}{P (O | λ)} = \frac{α_{t} (i) β_{t} (i)}{\sum_{j = 1}^{N} α_{t} (j) β_{t} (j)} .$
记 $ξ_{t} (i, j) = \frac{P (i_{t} = q_{i}, i_{t + 1} = q_{j}, O | λ)}{P (O | λ)}$ , 则 $ξ_{t} (i, j) = \frac{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)} .$
基于 $γ_{t} (i), ξ_{t} (i, j)$ 得到的期望值:
1. $O$ 下 $i$ 出现的期望: $\sum_{t = 1}^{T} γ_{t} (i)$ .
2. $O$ 下 $i$ 转移的期望: $\sum_{t = 1}^{T - 1} γ_{t} (i)$ .
3. $O$ 下 $i$ 转移到 $j$ 的期望: $\sum_{t = 1}^{T - 1} ξ_{t} (i, j)$ .

3 学习算法

3.1 监督学习算法

假设知道 $S$ 个长度相同的序列: ${(O_{1}, I_{1}), \dots, (O_{S}, I_{S})}$ . 可以用极大似然估计来估计模型的参数.

转移概率 $a_{i j}$ :
假设 $t$ 下状态为 $i$ , $t + 1$ 下状态为 $j$ 的频数为 $A_{i j}$ , 则 ${\hat{a}}_{i j} = \frac{A_{i j}}{\sum_{j = 1}^{N} A_{i j}}, 1 \leq i, j \leq N .$
观测概率 $b_{j} (k)$ :
设状态为 $j$ 且观测为 $k$ 的频数为 $B_{j k}$ , 则 ${\hat{b}}_{j} (k) = \frac{B_{j k}}{\sum_{k = 1}^{M} B_{j k}}, 1 \leq j \leq N, 1 \leq k \leq M .$
${\hat{π}}_{i}$ : 初始状态下 $q_{i}$ 的频率.

3.2 Baum-Welch 算法

人工标注数据的代价很高, 因此采用无监督学习的算法.
现在只给定 ${O_{1}, \dots, O_{S}}$ . 将观测序列看作 $O$ , 状态序列看作不可观测的 $I$ , 则隐 Markov 模型为 $P (O | λ) = \sum_{I} P (O | I, λ) P (I | λ) .$ 可以用 EM算法实现.

E 步: 计算 $Q (λ, \overset{―}{λ})$ : $Q (λ, \overset{―}{λ}) = \sum_{I} \log P (O, I | λ) P (O, I | \overset{―}{λ}) .$ 带入 $P (O, I | λ) = π_{i_{1}} b_{i_{_{1}}} (o_{1}) a_{i_{1} i_{2}} b_{i_{2}} (o_{2}) \dots a_{i_{T - 1} i_{T}} b_{i_{T}} (o_{T}),$ 有 $\begin{aligned} Q (λ, \overset{―}{λ}) = & \sum_{I} \log π_{i_{1}} P (O, I | \overset{―}{λ}) + \sum_{I} (\sum_{t = 1}^{T - 1} \log a_{i_{t} i_{t + 1}}) P (O, I | \overset{―}{λ}) \\ + \sum_{I} (\sum_{t = 1}^{T} \log b_{i_{t}} (o_{t})) P (O, I | \overset{―}{λ}) . \end{aligned}$
M 步: 极大化 $Q (λ, \overset{―}{λ})$ , 求参数 $A, B, π$ . 注意到 $π, A, B$ 分别出现在上面的三项中, 因此可以分别极大化. 对第一项, 结合 $\sum_{i = 1}^{N} π_{i} = 1$ , 写出 Lagrange 函数 $\sum_{i = 1}^{N} \log π_{i} P (O, i_{1} = i | \overset{―}{λ}) + γ (\sum_{i = 1}^{N} π_{i} - 1) .$ 对 $π_{i}$ 求偏导让结果为 $0$ , 得 $π_{i} = \frac{P (O, i_{1} = i | \overset{―}{λ})}{P (O | \overset{―}{λ})} .$
类似地, 第二项可以写为 $\sum_{i = 1}^{N} \sum_{j = 1}^{N} \sum_{t = 1}^{T - 1} \log a_{i j} P (O, i_{t} = i, i_{t + 1} = j | \overset{―}{λ}) .$ 结合约束条件 $\sum_{j = 1}^{N} a_{i j} = 1$ , 类似得 $a_{i j} = \frac{\sum_{t = 1}^{T - 1} P (O, i_{t} = i, i_{t + 1} = j | \overset{―}{λ})}{\sum_{t = 1}^{T - 1} P (O, i_{t} = i | \overset{―}{λ})} .$
最后对第三项 $\sum_{j = 1}^{N} \sum_{t = 1}^{T} \log b_{j} (o_{t}) P (O, i_{t} = j | \overset{―}{λ}),$ 结合 $\sum_{k = 1}^{M} b_{j} (k) = 1$ , 注意要添加限定条件 $o_{t} = v_{k}$ , 则 $b_{j} (k) = \frac{\sum_{t = 1}^{T} P (O, i_{t} = j | \overset{―}{λ}) 1 {o_{t} = v_{k}}}{\sum_{t = 1}^{T} P (O, i_{t} = j | \overset{―}{λ})} .$
结合 gamma 和 xi, 有 $\begin{matrix} (3.1) & a_{i j} = \frac{\sum_{t = 1}^{T - 1} ξ_{t} (i, j)}{\sum_{t = 1}^{T - 1} γ_{t} (i)}, b_{j} (k) = \frac{\sum_{t = 1, o_{t} = v_{k}}^{T} γ_{t} (j)}{\sum_{t = 1}^{T} γ_{t} (j)}, π_{i} = γ_{1} (i) . \end{matrix}$

Baum-Welch 算法

输入 $O = (o_{1}, \dots, o_{T})$
输出 $λ = (π, A, B)$

初始化: $n = 0$ , 选取 $a_{i j}^{(0)}, b_{j} (k)^{(0)}, π_{i}^{(0)}$ , 得到模型 $λ^{(0)} = (A^{(0)}, B^{(0)}, π^{(0)})$ .
递推: 见 (3.1).
终止: $λ^{(n + 1)} = (A^{(n + 1)}, B^{(n + 1)}, π^{(n + 1)})$ .

预测算法

注意这里同时出现了两个 $i$ 一个是下标一个是状态序列 ↩︎