7.2 判别分析

判别事实上就是机器学习中的分类问题.

1 距离判别

设 $G_{1}, G_{2}$ 是两个不同的总体, 有密度 $f_{1}, f_{2}$ . 要判别 $y$ 属于何者, 相当于检验 $H_{0} : f = f_{1} \leftrightarrow H_{1} : f = f_{2} .$
在判别问题中要求两种假设地位对等, 从而误判概率 $p_{12} = p_{21}$ .^[1]

记 $λ = \frac{f_{1} (y)}{f_{2} (y)}$ . 从而给出判别域 $\begin{matrix} (1.0) & D_{1} = {y | \frac{f_{1} (y)}{f_{2} (y)} \leq C}, D_{2} = {y | \frac{f_{1} (y)}{f_{2} (y)} > C} . \end{matrix}$ 当 $y \in D_{i}$ 时 $y \in G_{i}$ , $i = 1, 2$ .

1.1 正态同协方差阵情形

此时 $G_{i} \sim N_{p} (μ_{i}, Σ)$ , $μ_{1} \neq μ_{2}$ . 于是 $\begin{aligned} f_{i} (y) & = C (det Σ)^{- \frac{1}{2}} \exp {- \frac{1}{2} (y - μ_{i})^{T} Σ^{- 1} (y - μ_{i})} \\ \Rightarrow \ln λ & = \ln \frac{f_{1} (y)}{f_{2} (y)} = \frac{1}{2} [(y - μ_{2})^{T} Σ^{- 1} (y - μ_{2}) - (y - μ_{1})^{T} Σ^{- 1} (y - μ_{1})] . \end{aligned}$
记 $W (y) = \ln λ$ 为判别函数, 它给出判别 $\begin{matrix} (1.1) & D_{1} = {y | W (y) \leq \ln C}, D_{2} = {y | W (y) > \ln C} . \end{matrix}$
简单计算得 $W (y) = (μ_{1} - μ_{2})^{T} Σ^{- 1} (y - \overset{―}{μ}),$ 其中 $\overset{―}{μ} = \frac{1}{2} (μ_{1} + μ_{2})$ .

当两个假设地位对等时, 可取 $C = 1$ , 则分界线是 $W (y) = \ln C = 0$ .^[2]

从 (1.1) 推广出一个重要概念: Mahalanobis 距离 $d (x, y) = [(x - y)^{T} Σ^{- 1} (x - y)]^{\frac{1}{2}} \equiv | | x - y | |_{Σ} .$ 这个概念在聚类方法、因果推断重随机化中也出现了. 这里我们把 $Σ$ 称为权矩阵.

定义 $y$ 到总体 $G_{i}$ 的距离为 $d (y, G_{i}) = | | y - μ_{i} | |_{Σ},$ 从而判别规则改为 $\begin{matrix} (1.2) & {\begin{aligned} d (y, G_{1}) < d (y, G_{2}) : y \in G_{1}, \\ d (y, G_{1}) \geq d (y, G_{2}) : y \in G_{2} . \end{aligned} \end{matrix}$ 把这称为距离判别.
把集合 ${y | d (y, G_{1}) = d (y, G_{2})}$ 称为判别的边界. 在正态同协方差阵的情况下, 这个边界是过 $\overset{―}{μ}$ 的超平面.

下面对 $C > 0$ 讨论误判概率. 记 $b = Σ^{- \frac{1}{2}} (μ_{1} - μ_{2})$ . 当 $y \in G_{1}$ : $W (y) \sim N_{p} (\frac{1}{2} | | b | |^{2}, | | b | |^{2}),$ 得 $\begin{aligned} p_{21} & = P (W (y) \leq \ln C) \\ = P (\frac{W (y) - E W (y)}{\sqrt{Var (W (y))}} \leq \frac{\ln C - \frac{1}{2} | | b | |^{2}}{| | b | |}) \\ = Φ (\frac{\ln C - \frac{1}{2} | | b | |^{2}}{| | b | |}) . \end{aligned}$
类似地 $p_{12} = 1 - Φ (\frac{\ln C + \frac{1}{2} | | b | |^{2}}{| | b | |}) .$
注意到 $p_{21}, p_{12}$ 都关于 $| | b | |$ 严格下降, 而 $| | b | |^{2} = b^{T} b = (μ_{1} - μ_{2})^{T} Σ^{- 1} (μ_{1} - μ_{2}) \equiv d^{2} (G_{1}, G_{2})$ 可以看作两个总体的 Mahalanobis 距离, 因此两个总体较远时误判概率就会变小; 否则 $p_{12} + p_{21} \approx 1$ , 且 ${\begin{aligned} C = 1 : p_{21} = p_{12}, \\ C > 0 : p_{21} > p_{12}, \\ C < 0 : p_{21} < p_{12} . \end{aligned}$
在实际中, 我们需要估计 $μ_{1}, μ_{2}, Σ$ . 一般地, $G_{i}$ 中取容量为 $n_{i}$ 的样本 $Y^{(i)}$ . 用估计(参考这里) $\begin{aligned} {\hat{μ}}_{i} & = \frac{1}{n_{i}} {Y^{T}}^{(i)} 1_{n_{i}}, \\ \hat{Σ} & = \frac{1}{n_{1} + n_{2} - 2} \sum_{i = 1}^{2} {Y^{T}}^{(i)} P_{1_{n_{i}}^{⊥}} Y^{(i)} \end{aligned}$ 代替 $μ_{i}, Σ$ , 得 $\hat{W} (y) = ({\hat{μ}}_{1} - {\hat{μ}}_{2})^{T} {\hat{Σ}}^{- 1} (y - \frac{{\hat{μ}}_{1} + {\hat{μ}}_{2}}{2}) .$
这就是基于样本观察值的距离判别.
它的误判概率的研究相当复杂, 这里不讨论.

1.2 分布自由同协方差阵情形

现在只假设 $G_{i}$ 的协方差阵都是 $Σ$ , 均值 $μ_{1} \neq μ_{2}$ . 注意到前面的判别规则只和分布的二阶矩有关, 所以这个判别在一般分布也同样适用, 但误差概率需要通过实践来检验.
下面讨论 Euclide 距离和 Mahalanobis 距离的优劣. 容易看出 Mahalanobis 距离的一个优点是没有量纲, 更加合理, 且把方差也考虑在内了.

例子

例如对 $Σ = diag (σ_{1}^{2}, σ_{2}^{2})$ , Euclide 距离为 $| | x - y | | = \sqrt{(x_{1} - y_{1})^{2} + (x_{2} - y_{2})^{2}},$ 但 Mahalanobis 距离为 $| | x - y | |_{Σ} = \sqrt{\frac{(x_{1} - y_{1})^{2}}{σ_{1}^{2}} + \frac{(x_{2} - y_{2})^{2}}{σ_{2}^{2}}} .$
考虑 $σ_{1} > σ_{2}$ , 第一个指标的方差大, 差异的意义就相对小, 所以第一项除以 $σ_{1}^{2}$ 就更加合理.
再或者 $Σ = (\begin{matrix} \sqrt{2} & 1 \\ 1 & \sqrt{2} \end{matrix})$ , $Σ^{- 1} = (\begin{matrix} \sqrt{2} & - 1 \\ - 1 & \sqrt{2} \end{matrix})$ . 令 $x = (1, 1)^{T}$ , $y = (1, - 1)^{T}$ , 则到 $0$ 的 Euclide 距离为 $| | x | | = | | y | | = \sqrt{2}$ , 而 Mahalanobis 距离为 $| | x | |_{Σ} = \sqrt{2 (\sqrt{2} - 1)} < \sqrt{2 (\sqrt{2} + 1)} = | | y | |_{Σ} .$ 当两个指标异号时离原点远, 这也更加合理.

1.3 协方差阵不等的情形

设 $G_{i} \sim (μ_{i}, Σ_{i})$ , $Σ_{1} \neq Σ_{2}$ . 令判别函数 $W (y) = \frac{1}{2} [(y - μ_{2})^{T} Σ_{2}^{- 1} (y - μ_{2}) - (y - μ_{1})^{T} Σ_{1}^{- 1} (y - μ_{1})] .$
依然用判别规则 (1.1). 此时 $W (y)$ 不再是线性函数, 判别边界是 $p$ 维空间的二次曲面. 现仅讨论 $p = 1$ , 总体分布正态的情形. 不妨设 $μ_{1} > μ_{2}$ , $y \in (μ_{2}, μ_{1})$ . 由 $d (y, G_{1}) = d (y, G_{2})$ 得 $\frac{y - μ_{2}}{σ_{2}} = \frac{μ_{1} - y}{σ_{1}} \Rightarrow y_{C} = \frac{μ_{1} σ_{2} + μ_{2} σ_{1}}{σ_{1} + σ_{2}} \neq \overset{―}{μ} .$ 这里 $y_{C}$ 是判别的阈值. 判别为 ${\begin{aligned} y \leq y_{C}, y \in G_{2}, \\ y > y_{C}, y \in G_{1} . \end{aligned}$
若 $σ_{2} > σ_{1}$ , 阈值接近 $μ_{1}$ ; 否则接近 $μ_{2}$ . 算出误判概率 $\begin{aligned} p_{12} & = \int_{- \infty}^{a} (2 π σ_{1}^{2})^{- \frac{1}{2}} \exp {- \frac{(y - μ_{1})^{2}}{2 σ_{1}^{2}}} d y \\ = \int_{- \infty}^{b} (2 π)^{- \frac{1}{2}} \exp {- \frac{x^{2}}{2}} d x = Φ (\frac{μ_{2} - μ_{1}}{σ_{1} + σ_{2}}), \end{aligned}$ 这里 $a = \frac{μ_{1} σ_{2} + μ_{2} σ_{1}}{σ_{1} + σ_{2}}$ , $b = \frac{μ_{2} - μ_{1}}{σ_{1} + σ_{2}}$ . 类似地 $p_{21} = 1 - Φ (\frac{μ_{1} - μ_{2}}{σ_{1} + σ_{2}}) = p_{12} .$
对于 $k$ 个总体, 设 $G_{i} \sim (μ_{i}, Σ_{i})$ . 记 $d (y, G_{i}) = | | y - μ_{i} | |_{Σ_{i}}$ , 令 $D_{i} = {y | d (y, G_{i}) = min_{1 \leq j \leq k} d (y, G_{j})}, i = 1, \dots, k$ 为判别区域, 判别规则是 $y \in D_{i} : y \in G_{i}$ .

2 Fisher 判别函数

2.1 最优线性判别函数

Fisher 把问题限定到判断线性判别函数 $a^{T} y$ 得优劣. 如果一个判别函数是"好"的, 则它在各个总体中求均值所得的 $k$ 个数应该有较大的利差. 令 $Δ (a) = \frac{\sum_{i = 1}^{k} {[E_{i} (a^{T} y) - \frac{1}{k} \sum_{i = 1}^{k} E_{i} (a^{T} y)]}^{2}}{\sum_{i = 1}^{k} {Var}_{i} (a^{T} y)},$ 它被称为Fisher 准则.

最优线性判别函数

如果 $u^{T} y$ 满足 $Δ (u) = max_{a \in R^{p}} Δ (a)$ , 则 $u^{T} y$ 是最优线性判别函数.

把 $Δ (a)$ 写成矩阵形式: $Δ (a) = \frac{a^{T} \sum_{i = 1}^{k} (μ_{i} - \overset{―}{μ}) (μ_{i} - \overset{―}{μ})^{T} a}{a^{T} (\sum_{i = 1}^{k} Σ_{i}) a} \equiv \frac{a^{T} M a}{a^{T} Σ a} .$
显然它只依赖 $a$ 的方向而非长度. 这里 $\overset{―}{μ} = \frac{1}{k} \sum_{i = 1}^{k} μ_{i}$ , $Σ = \sum_{i = 1}^{k} Σ_{i}$ , $M = \sum_{i = 1}^{k} (μ_{i} - \overset{―}{μ}) (μ_{i} - \overset{―}{μ})^{T}$ . 令 $b = Σ^{\frac{1}{2}}$ , 不妨设 $| | b | | = 1$ , 从而 $Δ (a) = Δ (Σ^{- \frac{1}{2}} b) = b^{T} Σ^{- \frac{1}{2}} M Σ^{- \frac{1}{2}} b .$
根据这里, $max_{| | b | | = 1} b^{T} Σ^{- \frac{1}{2}} M Σ^{- \frac{1}{2}} b = λ_{1} (Σ^{- 1} M) = λ_{1},$ 极大值点为 $Σ^{- \frac{1}{2}} M Σ^{- \frac{1}{2}}$ 对应 $λ_{1}$ 的特征向量 $c_{1}$ , 因此 $a_{1} = Σ^{- \frac{1}{2}} c_{i}$ 是 $Σ^{- 1} M$ 对应 $λ_{1}$ 的特征向量, 得到最优线性判别函数 $W_{1} (y) = a_{1}^{T} y$ , 称 $λ_{1}$ 是 $W_{1} (y)$ 的判别效率.

此时判别规则是: 计算 $d (W_{1} (y), W_{1} (μ_{i})) = \frac{| a_{1}^{T} y - a_{1}^{T} μ_{i} |}{(a_{1}^{T} Σ_{i} a_{1})^{\frac{1}{2}}}, i = 1, \dots, k,$ 然后把 $y$ 判给上式最小的那个 $G_{i}$ .

由于 $μ_{i}$ 不全相同, $Σ^{- \frac{1}{2}} M Σ^{- \frac{1}{2}}$ 至少有一个正特征值. 对 $Σ^{- 1} M$ , 记特征值为 $λ_{1} \geq \dots \geq λ_{r} > 0$ , 可以相继引进 $W_{i} (y) = a_{i}^{T} y$ , 用 $r$ 个综合指标来判别 $y$ . 记 $A = (a_{1}, \dots, a_{r})$ , 则 $d^{2} (A^{T} y, A^{T} μ_{i}) = (y - μ_{i})^{T} A (A^{T} Σ_{i} A)^{- 1} A^{T} (y - μ_{i}) .$

2.2 准则和其他判别的关系

在 $k = 2$ 时, $Δ (a) = \frac{1}{2} \frac{a^{T} (μ_{1} - μ_{2}) (μ_{1} - μ_{2})^{T} a}{2 a^{T} Σ a},$ 其中 $Σ = \frac{Σ_{1} + Σ_{2}}{2}$ , 因此 $Σ^{- 1} M = \frac{1}{2} Σ^{- 1} (μ_{1} - μ_{2}) (μ_{1} - μ_{2})^{T},$ 有唯一特征值 $\frac{1}{2} (μ_{1} - μ_{2})^{T} Σ^{- 1} (μ_{1} - μ_{2}) = \frac{1}{2} | | μ_{1} - μ_{2} | |_{Σ}^{2}$ , 相应特征向量为 $a_{1} = Σ^{- 1} (μ_{1} - μ_{2})$ , 得最优线性判别函数 $W_{1} (y) = (μ_{1} - μ_{2})^{T} Σ^{- 1} y,$ 因此 $Σ_{1} = Σ_{2}$ 时判别和 (1.2) 一致.

如果把 $a^{T} y$ 换成任意可测的 $a (y)$ , 设 $k = 2$ , $G_{i} \sim f_{i} (y)$ , 则 $E_{i} a (y) = \int a (y) f_{i} (y) d y$ , 得 $\begin{matrix} (2.1) & Δ (a (y)) = \frac{{\int a (y) [f_{1} (y) - f_{2} (y)] d y}^{2}}{\int [a (y) - E_{1} a (y)]^{2} f_{1} (y) d y + \int [a (y) - E_{2} a (y)]^{2} f_{2} (y) d y} . \end{matrix}$
设极大值点为 $a_{0} (y)$ , 令 $a (y) = a_{0} (y) + λ b (y)$ , $λ \in R$ , 则记 $Δ (a (y)) = Δ (a_{0} (y), λ, b (y))$ . 则 $Δ (a (y))$ 关于 $λ$ 在 $λ = 0$ 时极大: ${\frac{\partial Δ (a (y))}{\partial λ} |}_{λ = 0} = 0$ .
记 $E_{i 0} = \int a_{0} (y) f_{i} (y) d y, D_{i 0} = \int [a_{0} (y) - E_{i 0}]^{2} f_{i} (y) d y,$ 则计算得 $\int {(D_{10} + D_{20}) (f_{1} - f_{2}) - (E_{10} - E_{20}) [(a_{0} - E_{10}) f_{1} + (a_{0} - E_{20}) f_{2}]} b (y) d y = 0.$ 由 $b (y)$ 的任意性: $(D_{10} + D_{20}) (f_{1} - f_{2}) - (E_{10} - E_{20}) [(a_{0} - E_{10}) f_{1} + (a_{0} - E_{20}) f_{2}] = 0,$ 解得 $a_{0} (y) = \frac{(d + E_{10}) f_{1} - (d - E_{20}) f_{2}}{f_{1} + f_{2}},$ 其中 $d = \frac{D_{10} + D_{20}}{E_{10} - E_{20}}$ .
从 (2.1) 看出, 如果 $a_{0} (y)$ 是极大值点, 则 $α a_{0} (y) + β$ 也是 (2.1) 的极大值点.

设 $π_{i}$ 是 $G_{i}$ 的先验概率, 即混合总体中 $G_{i}$ 的比重是 $π_{i}$ , $π_{1} + π_{2} = 1$ . 用待定系数法可以算出 $α = \frac{π_{1} + π_{2}}{2 d + E_{10} - E_{20}}, β = \frac{π_{2} (d - E_{20}) - π_{1} (d + E_{10})}{2 d + E_{10} - E_{20}}$
时 $α a_{0} (y) + β = \frac{π_{2} f_{1} (y) π_{1} f_{2} (y)}{f_{1} (y) + f_{2} (y)} \equiv a (y)$ 是 (2.1) 的极大值点, 即它是最优判别函数. 所以有判别域 $\begin{aligned} D_{1} & = {y | a (y) > 0} = {y | f_{1} (y) > \frac{π_{1}}{π_{2}} f_{2} (y)}, \\ D_{2} & = {y | a (y) \leq 0} = {y | f_{1} (y) \leq \frac{π_{1}}{π_{2}} f_{2} (y)}, \end{aligned}$ 这和 (1.0) 在 $C = \frac{π_{1}}{π_{2}}$ 时相同!

此外还和 (3.1) 相同.

3 Bayes 判别

Bayes 判别也是判别分析最常用的方法之一. 它的基本思想参考 5.1 Bayes统计推断.

在判别问题中, $θ$ 取 $k$ 个值, 代表 $k$ 个总体的密度 $f_{i}$ . 不妨认为 $θ \in {1, \dots, k}$ . 设 $π_{j} = P (θ = j)$ 是先验概率, 把 $G_{j}$ 误判给 $G_{i}$ 的损失记为 $L (i, j)$ , 发生概率是 $p_{i j} = \int_{D_{i}} f_{j} (y) d y = \int f_{i} (y) χ_{D_{i}} (y) d y,$ 这里 $D_{i}$ 是判别域, 所以平均损失 ( 风险函数 ):

\sum_{i = 1}^{k} L (i, j) \int χ_{D_{i}} (y) f_{j} (y) d y .

这时判别函数实质上是一组判别域 $D = {D_{1}, \dots, D_{k}}$ : $\begin{aligned} ⋃_{i = 1}^{k} D_{i} = R^{p}, \\ P_{h} (D_{i} \cap D_{j}) = 0, i \neq j; i, j, h = 1, \dots, k . \end{aligned}$
当 $y \in D_{i}$ , 判 $y \in G_{i}$ .
由先验分布 $π$ , 得 Bayes 风险为 $\begin{aligned} R π (D) & = \sum_{j = 1}^{k} π_{j} \sum_{i = 1}^{k} L (i, j) \int χ_{D_{i}} (y) f_{j} (y) d y \\ = \sum_{j = 1}^{k} \int χ_{D_{i}} (y) \sum_{j = 1}^{k} π_{j} L (i, j) f_{j} (y) d y . \end{aligned}$
记 $h_{i} (y) = \sum_{j = 1}^{k} π_{j} L (i, j) f_{j} (y)$ . 目标是求 $D$ 来最小化 $R_{π} (D)$ , 把 $D$ 称为Bayes 判别.

令 $D_{i} = {y | h_{i} (y) = min_{1 \leq j \leq k} h_{j} (y)}$ , $i = 1, \dots, k$ . 下面证明 $D$ 就是 Bayes 解.

证明

设任意一组判别域为 $D^{*}$ , 我们有 $\begin{aligned} R_{π} (D^{*}) - R_{π} (D) \\ = & \sum_{i = 1}^{k} \int χ_{D_{i}^{*}} h_{i} (y) d y - \sum_{i = 1}^{k} \int χ_{D_{i}} h_{i} (y) d y \\ = & \sum_{j = 1}^{k} \sum_{i = 1}^{k} \int χ_{D_{j}} (y) χ_{D_{i}^{*}} (y) h_{i} (y) d y - \sum_{j = 1}^{k} \sum_{i = 1}^{k} \int χ_{D_{j}^{*}} (y) χ_{D_{i}^{*}} (y) h_{i} (y) d y \\ = & \sum_{j = 1}^{k} \sum_{i = 1}^{k} \int χ_{D_{j}^{*} \cap D_{i}} (y) [h_{j} (y) - h_{i} (y)] d y . \end{aligned}$
由 $D_{i}$ 定义: $\begin{aligned} \int_{χ_{D_{j}^{*} \cap D_{i}}} (y) [h_{j} (y) - h_{i} (y)] \geq 0 \\ \Rightarrow & R_{π} (D^{*}) - R_{π} (D) \geq 0. \end{aligned}$

现在设 $L (i, j) = δ_{i j}$ (也即 0-1 损失函数), 则 Bayes 判别域为 $D_{i} = {y | \sum_{j \neq i} π_{j} f_{j} (y) = min_{1 \leq l \leq k} \sum_{j \neq l} π_{j} f_{j} (y)} .$
在 $k = 2$ 时, $\begin{aligned} D_{1} & = {y | f_{1} (y) > \frac{π_{1}}{π_{2}} f_{2} (y)}, \\ (3.1) & D_{2} & = {y | f_{1} (y) \leq \frac{π_{1}}{π_{2}} f_{2} (y)}, \end{aligned}$ 这就是 (1.0)!

$p_{i j}$ 表示实际来自 $G_{j}$ 却被判给 $G_{i}$ . ↩︎
$W (y) = 0$ 在连续型分布中概率为 $0$ , 判给哪一边都行. ↩︎