判别事实上就是机器学习中的分类问题.
1 距离判别
设 是两个不同的总体, 有密度 . 要判别 属于何者, 相当于检验
在判别问题中要求两种假设地位对等, 从而误判概率 .
记 . 从而给出判别域 当 时 , .
1.1 正态同协方差阵情形
此时 , . 于是
记 为判别函数, 它给出判别
简单计算得 其中 .
当两个假设地位对等时, 可取 , 则分界线是 .
从 (1.1) 推广出一个重要概念: Mahalanobis 距离 这个概念在 聚类方法、 因果推断重随机化 中也出现了. 这里我们把 称为权矩阵.
定义 到总体 的距离为 从而判别规则改为 把这称为距离判别.
把集合 称为判别的边界. 在正态同协方差阵的情况下, 这个边界是过 的超平面.
下面对 讨论误判概率. 记 . 当 : 得
类似地
注意到 都关于 严格下降, 而 可以看作两个总体的 Mahalanobis 距离, 因此两个总体较远时误判概率就会变小; 否则 , 且
在实际中, 我们需要估计 . 一般地, 中取容量为 的样本 . 用估计(参考这里) 代替 , 得
这就是基于样本观察值的距离判别.
它的误判概率的研究相当复杂, 这里不讨论.
1.2 分布自由同协方差阵情形
现在只假设 的协方差阵都是 , 均值 . 注意到前面的判别规则只和分布的二阶矩有关, 所以这个判别在一般分布也同样适用, 但误差概率需要通过实践来检验.
下面讨论 Euclide 距离和 Mahalanobis 距离的优劣. 容易看出 Mahalanobis 距离的一个优点是没有量纲, 更加合理, 且把方差也考虑在内了.
例如对 , Euclide 距离为 但 Mahalanobis 距离为
考虑 , 第一个指标的方差大, 差异的意义就相对小, 所以第一项除以 就更加合理.
再或者 , . 令 , , 则到 的 Euclide 距离为 , 而 Mahalanobis 距离为 当两个指标异号时离原点远, 这也更加合理.
1.3 协方差阵不等的情形
设 , . 令判别函数
依然用判别规则 (1.1). 此时 不再是线性函数, 判别边界是 维空间的二次曲面. 现仅讨论 , 总体分布正态的情形. 不妨设 , . 由 得 这里 是判别的阈值. 判别为
若 , 阈值接近 ; 否则接近 . 算出误判概率 这里 , . 类似地
对于 个总体, 设 . 记 , 令 为判别区域, 判别规则是 .
2 Fisher 判别函数
2.1 最优线性判别函数
Fisher 把问题限定到判断线性判别函数 得优劣. 如果一个判别函数是"好"的, 则它在各个总体中求均值所得的 个数应该有较大的利差. 令 它被称为Fisher 准则.
如果 满足 , 则 是最优线性判别函数.
把 写成矩阵形式:
显然它只依赖 的方向而非长度. 这里 , , . 令 , 不妨设 , 从而
根据 这里, 极大值点为 对应 的特征向量 , 因此 是 对应 的特征向量, 得到最优线性判别函数 , 称 是 的判别效率.
此时判别规则是: 计算 然后把 判给上式最小的那个 .
由于 不全相同, 至少有一个正特征值. 对 , 记特征值为 , 可以相继引进 , 用 个综合指标来判别 . 记 , 则
2.2 准则和其他判别的关系
在 时, 其中 , 因此 有唯一特征值 , 相应特征向量为 , 得最优线性判别函数 因此 时判别和 (1.2) 一致.
如果把 换成任意可测的 , 设 , , 则 , 得
设极大值点为 , 令 , , 则记 . 则 关于 在 时极大: .
记 则计算得 由 的任意性: 解得 其中 .
从 (2.1) 看出, 如果 是极大值点, 则 也是 (2.1) 的极大值点.
设 是 的先验概率, 即混合总体中 的比重是 , . 用待定系数法可以算出
时 是 (2.1) 的极大值点, 即它是最优判别函数. 所以有判别域 这和 (1.0) 在 时相同!
此外还和 (3.1) 相同.
3 Bayes 判别
Bayes 判别也是判别分析最常用的方法之一. 它的基本思想参考 5.1 Bayes统计推断.
在判别问题中, 取 个值, 代表 个总体的密度 . 不妨认为 . 设 是先验概率, 把 误判给 的损失记为 , 发生概率是 这里 是判别域, 所以平均损失 ( 风险函数 ):
这时判别函数实质上是一组判别域 :
当 , 判 .
由先验分布 , 得 Bayes 风险为
记 . 目标是求 来最小化 , 把 称为Bayes 判别.
令 , . 下面证明 就是 Bayes 解.
设任意一组判别域为 , 我们有
由 定义:
现在设 (也即 0-1 损失函数), 则 Bayes 判别域为
在 时, 这就是 (1.0)!