特征交叉系列模型

FM 因子分解机

相比 Logistic回归模型 只考虑单个特征对 y 的影响, FM 因子分解机考虑了二阶组合特征:

y^(x)=w0+i=1nwixi+i=1nj=i+1nwi,jxixj.

在推荐系统中, 特征值非常稀疏, 因此会对每一类特征学习一个隐变量, 也即 xivi, 进而替换 wi,j=vi,vj.
事实上我们可以进一步降低复杂度: 从 O(kn2)O(kn), 这里 kvi,vj 的复杂度. i=1nj=i+1nvi,vjxixj=12f=1k[(i=1nvi,fxi)2i=1nvi,f2xi2].

回代一下得到:

.

FFM

多的 F 是 (Field). 它会对特征进行分组, 例如性别 one-hot encoding 之后分成 x_female, x_male, 它们都属于性别.
定义域映射函数 f, fixi 对应的域编号, 它是一个额外的特征.

y=w0+i=1nwixi+i=1n1j=i+1nVi,fj,Vj,fixixj.

如果共有 F 个域, 每个 xi 拥有 F 个隐向量, 当他们两两交叉, 二阶交叉项参数共有 nkF.