1 感知机

1 感知机模型

感知机

输入空间 $X \subset R^{n} (= R^{n \times 1})$ , 输出空间间 $Y = {+ 1, - 1}$ . 函数函数 $\begin{matrix} (1.1) & f (x) = sgn (ω x + b), ω \in R^{n}, b \in R \end{matrix}$ 称为称为感知机 .

$ω x + b$ 相当于一个超平面，将空间上的点切分为两部分. 感知机模型的任务就是，如果理论上存在一个切分点的超平面，则找到它, 将点正确分到正例与负例.

这里将两个尺寸相同的列向量相乘默认为逐元素相乘，得到的值为实数.

2 感知机学习策略

2.1 数据集的线性可分性

数据集的线性可分性

给定数据集 $T = {(x_{1}, y_{1}), \dots, (x_{N}, y_{N})}$ , $x_{i} \in X = R^{n}, y_{i} \in Y, 1 \leq i \leq N$ . 如果存在超平面 $S$ , 可以将数据点完全正确地划分，则称数据集 $T$ 是线性可分数据集.

2.2 感知机学习策略

选取误分类点到超平面的总距离作为损失函数(因为这关于参数是可导的). 首先给出点到超平面的距离公式: $d = \frac{| ω x_{0} + b |}{| | ω | |} = \frac{- y_{i} (ω x_{i} + b)}{| | ω | |},$ 这里使用了 $y_{i}$ 的特性: 在误分类点中， $ω x_{i} + b$ 与 $y_{i}$ 的符号始终相反. 因此，如果记误分类点的集合为 $M$ , 将上述距离相加，推导出损失函数为 $\begin{matrix} (2.1) & L (ω, b) = - \sum_{x_{i} \in M} y_{i} (ω x_{i} + b) . \end{matrix}$

注意到这个表达式里去掉了 $1 / | | ω | |$ 系数，这是因为在线性可分的假设下，我们的目标是让 $L$ 严格等于 $0$ , 因此去掉这项系数不会影响最后的目标，但可以简化求导计算.

3 感知机学习算法

3.1 感知机学习算法的原始形式

感知机算法需要优化以下问题 $min_{ω, b} L (ω, b) = - \sum_{x_{i} \in M} y_{i} (ω x_{i} + b) .$
采用随机梯度下降( #SGD )方法迭代优化. 注意到损失函数是关于 $ω, b$ 的线性函数，因此 $\begin{aligned} \nabla_{ω} L (ω, b) & = - \sum_{x_{i} \in M} y_{i} x_{i}, \\ \nabla_{b} L (ω, b) & = - \sum_{x_{i} \in M} y_{i} . \end{aligned}$ 然后给出具体算法.

感知机学习算法的原始形式

输入: 线性可分的训练集 $T = {(x_{1}, y_{1}), \dots, (x_{N}, y_{N})}$ , $x_{i} \in X = R^{n}$ , $y_{i} \in Y = {- 1, + 1}$ , $1 \leq i \leq N$ ; 学习率 $η \in (0, 1]$ .
输出: $ω, b$ 和对应的感知机模型 $f (x) = sgn (ω x + b)$ .

选取初值 $ω_{0}, b_{0}$ ;
在训练集中选取 $(x_{i}, y_{i})$ ;
如果 $y_{i} (ω x_{i} + b) \leq 0$ , 则执行 $\begin{matrix} (3.1) & ω \leftarrow ω + η y_{i} x_{i}, b \leftarrow b + η y_{i} . \end{matrix}$
跳至 2，直至误分类点集合 $M = \emptyset$ .

例子

在 $R^{2}$ 中，正例点有 $x_{1} = (3, 3)^{T}, x_{2} = (4, 3)^{T}$ , 负例点有 $x_{3} = (1, 1)^{T}$ . 此时最优化问题为 $min_{ω, b} L (ω, b) = - \sum_{x_{i} \in M} y_{i} (ω x_{i} + b) .$ 依据感知机学习算法的原始形式进行求解，并令 $η = 1$ .

取 $ω_{0} = 0, b_{0} = 0$ .
$y_{1} (ω_{0} x_{1} + b_{0}) = 0$ , 说明 $x_{1}$ 未被正确分类，因此更新 $ω, b$ 为 $ω_{1} = ω_{0} + y_{1} x_{1} = (3, 3)^{T}, b_{1} = b_{0} + y_{1} = 1,$
此时将模型修改为 $ω_{1} x + b_{1} = 3 (x^{(1)} + x^{(2)}) + 1.$
此时 $y_{i} (ω_{1} x_{i} + b_{1}) > 0$ 对 $i = 1, 2$ 成立，但是对 $x_{3}$ 不成立，因此依据 $x_{3}$ 更新模型 $ω_{2} = ω_{1} + y_{3} x_{3} = (2, 2)^{T}, b_{2} = b_{1} + y_{3} = 0,$ 因此线性模型为 $ω_{2} x + b_{2} = 2 (x^{(1)} + x^{(2)}) .$
此时发现 $x_{3}$ 依然不成立. 继续迭代，得到 $ω_{7} = (1, 1)^{T}, b_{7} = - 3, f (x) = x^{(1)} + x^{(2)} - 3.$

3.2 原始形式的收敛性

Novikoff (感知机的收敛性)

在线性可分的数据集的划分超平面中，存在 $ω_{opt} x + b_{opt} = {\hat{ω}}_{opt} \hat{x} = 0$ ，使得 $| | {\hat{ω}}_{opt} | | = 1$ ; 且对所有 $1 \leq i \leq N$ , 存在 $γ > 0$ , $y_{i} ({\hat{ω}}_{opt} {\hat{x}}_{i}) \geq γ .$
令 $R = max_{1 \leq i \leq N} | | {\hat{x}}_{i} | |$ , 则原始算法在训练数据集上的误分类次数 $k$ 满足 $k \leq {(\frac{R}{γ})}^{2} .$

3.3 感知机学习算法的对偶形式

在原始算法中，通过梯度下降不断对 $ω$ 赋予了 $y_{i} x_{i}$ 项, 对 $b$ 不断赋予了 $y_{i}$ 项，因此 $ω, b$ 有表示形式 $ω = \sum_{i = 1}^{N} α_{i} y_{i} x_{i}, b = \sum_{i = 1}^{N} α_{i} y_{i}, (α_{i} \geq 0) .$

记 $n_{i} (1 \leq i \leq N)$ 为模型在全部的训练过程中为 $x_{i}$ 更新的次数，则 $α_{i} = n_{i} η$ . 事实上，更新次数越多的点离超平面越近，也就越难正确分类.

在对偶算法中，我们不改变 $b$ 的训练方式，但是要改变 $ω$ .

感知机学习算法的对偶形式

输入: $T, η \in (0, 1]$ .
输出: $α = (α_{1}, \dots, α_{N})^{T}, b$ 和对应的 $f (x) = sgn (\sum_{j = 1}^{N} α_{j} y_{j} x_{j} \cdot x + b)$ .

$α \leftarrow 0, b \leftarrow 0$ ;
选取 $(x_{i}, y_{i})$ ;
如果 $sgn (\sum_{j = 1}^{N} α_{j} y_{j} x_{j} \cdot x + b) \leq 0$ , 更新 $\begin{matrix} (3.2) & α_{i} \leftarrow α_{i} + η, b \leftarrow b + η y_{i} . \end{matrix}$
跳转到 2，直到误分类数据点集合 $M = \emptyset$ .

我们用 Gram 矩阵 $G = [x_{i} x_{j}]_{N \times N}$
来存储计算结果.

例子

采用这个例子的设定，但是使用对偶形式的算法来求解.

取 $α_{i} = 0, i = 1, 2, 3, b = 0, η = 1$ ;
计算 Gram 矩阵 $G = [\begin{matrix} 18 & 21 & 6 \\ 21 & 25 & 7 \\ 6 & 7 & 2 \end{matrix}] .$
进行迭代，最后得到 $ω = 2 x_{1} - 5 x_{3} = (1, 1)^{T}, b = - 3, f (x) = sgn (x^{(1)} + x^{(2)} - 3) .$