Logistic 回归和最大熵模型都被称为对数线性模型.
1 Logistic 回归模型
1.1 Logistic 分布
设是连续随机变量, 服从Logistic 分布, 如果 的分布、密度函数满足这里为位置参数, 为形状参数. 的曲线就是我们熟知的 Sigmoid 曲线, 它的对称中心为.
1.2 二项 Logistic 回归模型
模型满足如下分布
这里输入为, 输出为, 参数为.
为了方便起见, 对进行增广: , 则 Logistic 回归模型又可以写为
用几率定义一个事件发生与不发生的比率. 对 Logistic 回归模型, 发生 () 的对数几率为是关于的线性函数; 换言之, Logistic 回归模型的作用是将实数域上的线性函数转换为概率值.
1.3 模型参数估计
对给定的训练数据集, 其中, 采用极大似然估计来确定参数. 记. 则似然函数为
对数似然函数为
求极大值: 发现 没有解析解, 可以用数值方法得到 , 因此最终的 Logistic 模型为
(注意这里的 已经被增广了)
1.4 多项 Logistic 回归
改设, 其他设置与这里相同. 则 Logistic 回归模型为
2 最大熵模型
2.1 最大熵原理
最大熵原理认为, 在满足某些约束条件下, 要找尽可能熵最大的模型. 假设离散随机变量有概率分布, 其熵为
自然, 熵满足不等式这里是取值的个数. 上述不等式可由对数和不等式推导, 取等条件为是均匀分布.
最大熵模型 认为 , 在满足了约束条件后, 所有不确定部分都是“等可能的”, 用熵的最大化来表示等可能性. 从 (2.1) 看出, 分布越接近均匀分布, 熵越大; 反之则表现出某种集中性, 熵越小.
2.2 最大熵模型的定义
设分类模型是, 输入为, 输出为. 训练集.
为了应用最大熵模型, 首先要考虑约束条件. 首先从给定数据集确定和边缘分布的经验分布, 记为; 再记表示对应的频数. 则
定义输入和输出的特征函数为二元函数满足某个事实它的期望值表示为 假设模型可以获取全部的训练数据的信息, 则可以假定两个期望相等
上面的式 (2.2) 可以看作模型学习的约束条件; 个特征函数对应个约束条件.
假设满足所有约束条件的模型的集合为定义在条件概率分布上的条件熵为则中条件熵最大的模型称为最大熵模型.
2.3 最大熵模型的学习
最大熵模型的求解等价于最优化问题
转换为对偶( #Dual )问题 . 定义 Lagrange 函数
最优化问题的对偶问题 (因为 是关于 的凸函数):
- 首先, 求解内部的. 记, (称为对偶函数.) 并将解记为. 为了具体求解, 计算
(用了.) 进而令偏导为, 得到
这确定了的比例关系; 再结合得到
,这就是最大熵模型的决策依据. 在这里我们记分母为.
- 其次, 求解外部的. 记解为, 则, 则就是要学习的最优模型. 也即, 最大熵模型的学习归结为对偶函数的最大化.
如果随机变量
,
, 估计
.
解 最大熵模型学习最优化问题
定义 Lagrange 函数 求解对偶问题. 直接令, 解得
于是考虑极大化问题令, 解得, 则
2.4 极大似然估计的等价性证明
下面证明: 对偶函数的极大化等价于最大熵模型的极大似然估计. 为此, 考察的对数似然函数
- 一方面, 如果由 (2.4) 给出, 则
- 另一方面, 考察对偶函数, 带入 (2.3) 得
从而得到了.
由此, 最大熵模型的学习转化为对偶函数极大化或对数似然函数极大化问题.