5 Logistic回归最大熵模型

#LogisticDistribution #LogisticRegression #MaximumEntropyModel #Entropy #LagrangeMethod

Logistic 回归和最大熵模型都被称为对数线性模型.

1 Logistic 回归模型

1.1 Logistic 分布

Logistic分布

设 $X$ 是连续随机变量, $X$ 服从Logistic 分布, 如果 $X$ 的分布、密度函数满足 $\begin{aligned} (1.1) & F (x) & = P (X \leq x) = \frac{1}{1 + e^{- (x - μ) / γ}}, \\ (1.2) & f (x) & = F^{'} (x) = \frac{e^{- (x - μ) / γ}}{γ (1 + e^{- (x - μ) / γ})^{2}}, \end{aligned}$ 这里 $μ$ 为位置参数, $γ > 0$ 为形状参数. $F$ 的曲线就是我们熟知的 Sigmoid 曲线, 它的对称中心为 $(μ, \frac{1}{2})$ .

1.2 二项 Logistic 回归模型

Logistic 回归模型

模型满足如下分布 $\begin{aligned} P (Y = 1 | x) = & \frac{\exp (ω \cdot x + b)}{1 + \exp (ω \cdot x + b)}, \\ (1.3) & P (Y = 0 | x) = & \frac{1}{1 + \exp (ω \cdot x + b)}, \end{aligned}$
这里输入为 $x \in R^{n}$ , 输出为 $Y \in {0, 1}$ , 参数为 $ω \in R^{n}, b \in R$ .
为了方便起见, 对 $ω$ 进行增广: $\tilde{ω} = (ω^{T}, b)^{T}, \tilde{x} = (x^{T}, 1)^{T}$ , 则 Logistic 回归模型又可以写为 $P (Y = 1 | x) = \frac{\exp (ω \cdot x)}{1 + \exp (ω \cdot x)}, P (Y = 0 | x) = \frac{1}{1 + \exp (ω \cdot x)} .$

用几率定义一个事件发生与不发生的比率. 对 Logistic 回归模型, 发生 ( $Y = 1$ ) 的对数几率为 $\log \frac{p}{1 - p} = ω \cdot x$ 是关于 $x$ 的线性函数; 换言之, Logistic 回归模型的作用是将实数域上的线性函数转换为概率值.

1.3 模型参数估计

对给定的训练数据集 $T = {(x_{1}, y_{1}), \dots, (x_{N}, y_{N})}$ , 其中 $x_{i} \in R^{n}, y_{i} \in {0, 1}$ , 采用极大似然估计来确定参数. 记 $π (x) = P (Y = 1 | x), 1 - π (x) = P (Y = 0 | x)$ . 则似然函数为

\prod_{i = 1}^{N} [π (x_{i})]^{y_{i}} [1 - π (x_{i})]^{1 - y_{i}},

对数似然函数为 $\begin{aligned} L (ω) = & \sum_{i = 1}^{N} [y_{i} \log \frac{π (x_{i})}{1 - π (x_{i})} + \log (1 - π (x_{i}))] \\ = & \sum_{i = 1}^{N} [y_{i} (ω \cdot x_{i}) - \log (1 + \exp (ω \cdot x_{i}))] . \end{aligned}$
求极大值: $\frac{\partial L}{\partial ω} = \sum_{i = 1}^{N} [y_{i} x_{i} - \frac{x_{i} \exp (ω \cdot x_{i})}{1 + \exp (ω \cdot x_{i})}] = 0,$ 发现 $ω$ 没有解析解, 可以用数值方法得到 $\hat{ω}$ , 因此最终的 Logistic 模型为

\begin{array}{r} P (Y = 1 | x) = \frac{\exp (\hat{ω} \cdot x)}{1 + \exp (\hat{ω} \cdot x)}, \\ P (Y = 0 | x) = \frac{1}{1 + \exp (\hat{ω} \cdot x)} . \end{array}

(注意这里的 $\hat{ω}$ 已经被增广了)

1.4 多项 Logistic 回归

改设 $Y = {1, \dots, K}$ , 其他设置与这里相同. 则 Logistic 回归模型为

\begin{aligned} P (Y = k | x) = & \frac{\exp (ω_{k} \cdot x)}{1 + \sum_{k = 1}^{K - 1} \exp (ω_{k} \cdot x)}, 1 \leq k \leq K - 1, \\ (1.4) & P (Y = K | x) = & \frac{1}{1 + \sum_{k = 1}^{K - 1} \exp (ω_{k} \cdot x)} . \end{aligned}

2 最大熵模型

2.1 最大熵原理

最大熵原理认为, 在满足某些约束条件下, 要找尽可能熵最大的模型. 假设离散随机变量 $X$ 有概率分布 $P (X)$ , 其熵为

\begin{matrix} (2.1) & H (P) = - \sum_{x} P (x) \log P (x) . \end{matrix}

自然, 熵满足不等式 $0 \leq H (P) \leq \log | X | .$ 这里 $| X |$ 是 $X$ 取值的个数. 上述不等式可由对数和不等式推导, 取等条件为 $X$ 是均匀分布.

最大熵模型 认为 , 在满足了约束条件后, 所有不确定部分都是“等可能的”, 用熵的最大化来表示等可能性. 从 (2.1) 看出, 分布越接近均匀分布, 熵越大; 反之则表现出某种集中性, 熵越小.

2.2 最大熵模型的定义

设分类模型是 $P (Y | X)$ , 输入为 $X \in X \subset R^{n}$ , 输出为 $Y \in Y$ . 训练集 $T = {(x_{1}, y_{1}), \dots, (x_{N}, y_{N})}$ .
为了应用最大熵模型, 首先要考虑约束条件. 首先从给定数据集确定 $P (X, Y)$ 和边缘分布 $P (X)$ 的经验分布, 记为 $\tilde{P} (X, Y), \tilde{P} (X)$ ; 再记 $ν (X = x, Y = y), ν (X = x)$ 表示对应的频数. 则 $\tilde{P} (X = x, Y = y) = \frac{ν (X = x, Y = y)}{N}, \tilde{P} (X = x) = \frac{ν (X = x)}{N} .$

特征函数

定义输入 $x$ 和输出 $y$ 的特征函数为二元函数 $f (x, y) = {\begin{aligned} 1, x, y 满足某个事实, \\ 0, otherwise . \end{aligned}$ 它的期望值表示为 $E_{\tilde{P}} (f) = \sum_{x, y} \tilde{P} (x) P (y | x) f (x, y) .$ 假设模型可以获取全部的训练数据的信息, 则可以假定两个期望相等 $\begin{matrix} (2.2) & E_{P} (f) = E_{\tilde{P}} (f) ⟺ \sum_{x, y} \tilde{P} (x) P (y | x) f (x, y) = \sum_{x, y} \tilde{P} (x, y) f (x, y) . \end{matrix}$

上面的式 (2.2) 可以看作模型学习的约束条件; $n$ 个特征函数对应 $n$ 个约束条件.

最大熵模型

假设满足所有约束条件的模型的集合为 $C = {P \in P | E_{P} (f_{i}) = E_{\tilde{P}} (f_{i}), i = 1, \dots, n},$ 定义在条件概率分布 $P (Y | X)$ 上的条件熵为 $H (P) = - \sum_{x, y} \tilde{P} (x) P (y | x) \log P (y | x),$ 则 $C$ 中条件熵 $H (P)$ 最大的模型称为最大熵模型.

2.3 最大熵模型的学习

最大熵模型的求解等价于最优化问题 $\begin{aligned} min_{P \in C} & - H (P) = \sum_{x, y} \tilde{P} (x) P (y | x) \log P (y | x) \\ s . t . & E_{P} (f_{i}) - E_{\tilde{P}} (f_{i}) = 0, i = 1, \dots, n, \\ \sum_{y} P (y | x) = 1. \end{aligned}$
转换为对偶( #Dual )问题 . 定义 Lagrange 函数 $\begin{aligned} L (P, ω) = & - H (P) + ω_{0} (1 - \sum_{y} P (y | x)) + \sum_{i = 1}^{n} ω_{i} [E_{\tilde{P}} (f_{i}) - E_{P} (f_{i})] \\ = & \sum_{x, y} \tilde{P} (x) P (y | x) \log P (y | x) + ω_{0} (1 - \sum_{y} P (y | x)) \\ (2.3) & + \sum_{i = 1}^{n} ω_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P (y | x) f_{i} (x, y)) . \end{aligned}$
最优化问题的对偶问题 (因为 $L$ 是关于 $P$ 的凸函数): $min_{P \in C} max_{ω} L (P, ω) \to max_{ω} min_{P \in C} L (P, ω)$

首先, 求解内部的 $min_{P \in C} L (P, ω)$ . 记 $ψ (ω) = min_{P \in C} L (P, ω) = L (P_{ω}, ω)$ , ( $ψ (ω)$ 称为对偶函数.) 并将解 $P_{ω}$ 记为 $P_{ω} = \arg min_{P \in C} L (P, ω) = P_{ω} (y | x)$ . 为了具体求解, 计算 $\begin{aligned} \frac{\partial L (P, ω)}{\partial P (y | x)} = & \sum_{x, y} \tilde{P} (x) [\log P (y | x) + 1] - \sum_{y} ω_{o} - \sum_{x, y} (\tilde{P} (x) \sum_{i = 1}^{n} ω_{i} f_{i} (x, y)) \\ = & \sum_{x, y} \tilde{P} (x) (\log P (y | x) + 1 - ω_{0} - \sum_{i = 1}^{n} ω_{i} f_{i} (x, y)), \end{aligned}$
(用了 $\sum_{x} \tilde{P} (x) = 1$ .) 进而令偏导为 $0$ , 得到 $P (y | x) = \frac{\exp (\sum_{i = 1}^{n} ω_{i} f_{i} (x, y))}{\exp (1 - ω_{0})},$
这确定了 $P_{ω} (y | x)$ 的比例关系; 再结合 $\sum_{y} P (y | x) = 1$ 得到

\begin{matrix} (2.4) & P_{ω} (y | x) = \frac{\exp (\sum_{i = 1}^{n} ω_{i} f_{i} (x, y))}{\sum_{y} \exp (\sum_{i = 1}^{n} ω_{i} f_{i} (x, y))} ， \end{matrix}

这就是最大熵模型的决策依据. 在这里我们记分母为 $Z_{ω} (x)$ .

其次, 求解外部的 $max_{ω} ψ (ω)$ . 记解为 $ω^{*}$ , 则 $ω^{*} = \arg max_{ω} ψ (ω)$ , 则 $P^{*} = P_{ω^{*}}$ 就是要学习的最优模型. 也即, 最大熵模型的学习归结为对偶函数 $ψ (ω)$ 的最大化.

如果随机变量

X \in X = {A, B, C, D, E}

P (A) + P (B) = \frac{3}{10}

, 估计

P (x)_{x \in X}

解最大熵模型学习最优化问题 $\begin{aligned} min & - H (P) = \sum_{i = 1}^{5} P (y_{i}) \log P (y_{i}), \\ s . t . & P (y_{1}) + P (y_{2}) = \tilde{P} (y_{1}) + \tilde{P} (y_{2}) = \frac{3}{10}, \\ \sum_{i = 1}^{5} P (y_{i}) = \sum_{i = 1}^{5} \tilde{P} (y_{i}) = 1. \end{aligned}$
定义 Lagrange 函数 $L (P, ω) = \sum_{i = 1}^{5} P (y_{i}) \log P (y_{i}) + ω_{1} (P (y_{1}) + P (y_{2}) - \frac{3}{10}) + ω_{0} (\sum_{i = 1}^{5} P (y_{i}) - 1) .$ 求解对偶问题 $max_{ω} min_{P} L (P, ω)$ . 直接令 $\frac{\partial L (P, ω)}{\partial P (y_{i})} = 0, 1 \leq i \leq 5$ , 解得 $P (y_{1}) = P (y_{2}) = e^{- ω_{1} - ω_{0} - 1}, P (y_{3}) = P (y_{4}) = P (y_{5}) = e^{- ω_{0} - 1},$
于是考虑极大化问题 $max_{ω} L (P_{ω}, ω) = - 2 e^{- ω_{1} - ω_{0} - 1} - 3 e^{- ω_{0} - 1} - \frac{3}{10} ω_{1} - ω_{0},$ 令 $\frac{\partial L (P_{ω}, ω)}{\partial ω_{i}} = 0 (i = 0, 1)$ , 解得 $e^{- ω_{1} - ω_{0} - 1} = \frac{3}{20}, e^{- ω_{0} - 1} = \frac{7}{30}$ , 则 $P (y_{1}) = P (y_{2}) = \frac{3}{20}, P (y_{3}) = P (y_{4}) = P (y_{5}) = \frac{7}{30} .$

2.4 极大似然估计的等价性证明

下面证明: 对偶函数的极大化等价于最大熵模型的极大似然估计. 为此, 考察 $P (Y | X)$ 的对数似然函数 $L_{\tilde{P}} (P_{ω}) = \log \prod_{x, y} P (y | x)^{\tilde{P} (x, y)} = \sum_{x, y} \tilde{P} (x, y) \log P (y | x) .$

一方面, 如果 $P (y | x)$ 由 (2.4) 给出, 则 $L_{\tilde{P}} (P_{ω}) = \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} ω_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) \log Z_{ω} (x) .$
另一方面, 考察对偶函数, 带入 (2.3) 得 $\begin{aligned} ψ (ω) = & \sum_{x, y} \tilde{P} (x) P_{ω} (y | x) \log P_{ω} (y | x) \\ + \sum_{i = 1}^{n} ω_{i} (\sum_{x, y} \tilde{P} (x, y) f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P_{ω} (y | x) f_{i} (x, y)) \\ = & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} ω_{i} f_{i} (x, y) + \sum_{x, y} \tilde{P} (x) P_{ω} (y | x) (\log P_{ω} (y | x) - \sum_{i = 1}^{n} ω_{i} f_{i} (x, y)) \\ = & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} ω_{i} f_{i} (x, y) - \sum_{x, y} \tilde{P} (x) P_{ω} (y | x) \log Z_{ω} (x) \\ = & \sum_{x, y} \tilde{P} (x, y) \sum_{i = 1}^{n} ω_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (x) \log Z_{ω} (x), \end{aligned}$

从而得到了 $L_{\tilde{P}} (P_{ω}) = ψ (ω)$ .
由此, 最大熵模型的学习转化为对偶函数极大化或对数似然函数极大化问题.