5 Logistic回归 最大熵模型

Logistic 回归和最大熵模型都被称为对数线性模型.

1 Logistic 回归模型

1.1 Logistic 分布

Logistic分布

X是连续随机变量, X服从Logistic 分布, 如果 X的分布、密度函数满足(1.1)F(x)=P(Xx)=11+e(xμ)/γ,(1.2)f(x)=F(x)=e(xμ)/γγ(1+e(xμ)/γ)2,这里μ为位置参数, γ>0为形状参数. F的曲线就是我们熟知的 Sigmoid 曲线, 它的对称中心为(μ,12).

1.2 二项 Logistic 回归模型

Logistic 回归模型

模型满足如下分布P(Y=1|x)=exp(ωx+b)1+exp(ωx+b),(1.3)P(Y=0|x)=11+exp(ωx+b),
这里输入为xRn, 输出为Y{0,1}, 参数为ωRn,bR.
为了方便起见, 对ω进行增广: ω~=(ωT,b)T,x~=(xT,1)T, 则 Logistic 回归模型又可以写为P(Y=1|x)=exp(ωx)1+exp(ωx),P(Y=0|x)=11+exp(ωx).

几率定义一个事件发生与不发生的比率. 对 Logistic 回归模型, 发生 (Y=1) 的对数几率为logp1p=ωx是关于x的线性函数; 换言之, Logistic 回归模型的作用是将实数域上的线性函数转换为概率值.

1.3 模型参数估计

对给定的训练数据集T={(x1,y1),,(xN,yN)}, 其中xiRn,yi{0,1}, 采用极大似然估计来确定参数. 记π(x)=P(Y=1|x),1π(x)=P(Y=0|x). 则似然函数为

i=1N[π(xi)]yi[1π(xi)]1yi,

对数似然函数为L(ω)=i=1N[yilogπ(xi)1π(xi)+log(1π(xi))]=i=1N[yi(ωxi)log(1+exp(ωxi))].
求极大值: Lω=i=1N[yixixiexp(ωxi)1+exp(ωxi)]=0, 发现 ω 没有解析解, 可以用数值方法得到 ω^, 因此最终的 Logistic 模型为

P(Y=1|x)=exp(ω^x)1+exp(ω^x),P(Y=0|x)=11+exp(ω^x).

(注意这里的 ω^ 已经被增广了)

1.4 多项 Logistic 回归

改设Y={1,,K}, 其他设置与这里相同. 则 Logistic 回归模型为

P(Y=k|x)=exp(ωkx)1+k=1K1exp(ωkx),1kK1,(1.4)P(Y=K|x)=11+k=1K1exp(ωkx).

2 最大熵模型

2.1 最大熵原理

最大熵原理认为, 在满足某些约束条件下, 要找尽可能熵最大的模型. 假设离散随机变量X有概率分布P(X), 其

(2.1)H(P)=xP(x)logP(x).

自然, 熵满足不等式0H(P)log|X|.这里|X|X取值的个数. 上述不等式可由对数和不等式推导, 取等条件为X是均匀分布.

最大熵模型 认为 , 在满足了约束条件后, 所有不确定部分都是“等可能的”, 用熵的最大化来表示等可能性. 从 (2.1) 看出, 分布越接近均匀分布, 熵越大; 反之则表现出某种集中性, 熵越小.

2.2 最大熵模型的定义

设分类模型是P(Y|X), 输入为XXRn, 输出为YY. 训练集T={(x1,y1),,(xN,yN)}.
为了应用最大熵模型, 首先要考虑约束条件. 首先从给定数据集确定P(X,Y)和边缘分布P(X)的经验分布, 记为P~(X,Y),P~(X); 再记ν(X=x,Y=y),ν(X=x)表示对应的频数. 则P~(X=x,Y=y)=ν(X=x,Y=y)N,P~(X=x)=ν(X=x)N.

上面的式 (2.2) 可以看作模型学习的约束条件; n个特征函数对应n个约束条件.

最大熵模型

假设满足所有约束条件的模型的集合为C={PP|EP(fi)=EP~(fi),i=1,,n},定义在条件概率分布P(Y|X)上的条件熵H(P)=x,yP~(x)P(y|x)logP(y|x),C中条件熵H(P)最大的模型称为最大熵模型.

2.3 最大熵模型的学习

最大熵模型的求解等价于最优化问题minPC H(P)=x,yP~(x)P(y|x)logP(y|x)s.t. EP(fi)EP~(fi)=0,i=1,,n,yP(y|x)=1.
转换为对偶( #Dual )问题 . 定义 Lagrange 函数 L(P,ω)=H(P)+ω0(1yP(y|x))+i=1nωi[EP~(fi)EP(fi)]=x,yP~(x)P(y|x)logP(y|x)+ω0(1yP(y|x))(2.3)+i=1nωi(x,yP~(x,y)fi(x,y)x,yP~(x)P(y|x)fi(x,y)).
最优化问题的对偶问题 (因为 L 是关于 P 的凸函数): minPCmaxωL(P,ω)maxωminPCL(P,ω)

(2.4)Pω(y|x)=exp(i=1nωifi(x,y))yexp(i=1nωifi(x,y))

这就是最大熵模型的决策依据. 在这里我们记分母为Zω(x).

2.4 极大似然估计的等价性证明

下面证明: 对偶函数的极大化等价于最大熵模型的极大似然估计. 为此, 考察P(Y|X)的对数似然函数LP~(Pω)=logx,yP(y|x)P~(x,y)=x,yP~(x,y)logP(y|x).

从而得到了LP~(Pω)=ψ(ω).
由此, 最大熵模型的学习转化为对偶函数极大化对数似然函数极大化问题.