我们认为随机向量的各个分量是相互联系的, 而不是自变量、因变量那种单方面依赖性. 我们希望从一组数据中看出其中起作用的指标, 以此来进行降维.
1 主成分分析
考虑随机向量 , 对它做正交变换. 令 , 是正交阵, 希望 的协方差阵简单, 如对角阵, 此时容易衡量 各个分量的作用.
现在假设 的总体二阶矩已知. 设 . 则 这里 , . 如果 , 则 , 这里 是 的特征值. 记 , 则 是 对应 的特征向量: .
设 是 维随机向量, 正交, 协方差如 (1.1), 则称 位 第 个主成分, 是对应的贡献率, 是前 个主成分的累计贡献率.
由于 , 所以主成分对应 的一个特征向量. 的方差 反映了 的变异. 由于 的分量互不相关, 的变异由 反映, 贡献率的概念刻画了 的变异的地位; 如果累计贡献率已经接近 , 则后面的那些主成分就可以直接舍去, 从而将问题从 维降到 维. 一般地, 设定门槛为 .
我们有另一种理论解释 的信息为什么在 的 个主成分里. 考虑 的线性预测 满足非退化条件, 要求预测的均方误差最小: 我们有
设 是关于 的前 个主成分. 记 , 则
由 这个定理, 因此 因此只需要证
注意到 其中 . 由于 是到 的正投影阵, 由 这里: (正交) 的前 列 : 于是
根据 这里, , 在 时达到.
记 , 这里 , 我们有 从而 的方差是 方差的一部分, 所占比例为 . 这里看出 同样影响显著, 称 为 在 上的载荷.
应用中, 考虑标准化主成分, 也即让 除以标准差 , 使 . 记 , 则 . 由 可得 在标准化主成分 上到载荷为 . 记 , 有 , . 因此对标准化主成分, 载荷的意义更明显. 事实上, 是相关矩阵时, .
还可以考虑旋转 , 即以 阶正交阵 去作用. 令 , 则有 , 则 . 但这时 在 上的载荷变为 其中 是 的 元. 适当选取 有利于对问题做出更好的统计解释.
在实际问题中, 改为样本协方差阵 或样本相关矩阵 . 不过此时特征值会变为随机变量, 让推导更加困难.
1.1 几何解释
考虑 个观察点 . 取重心 为原点, 也即假定 , 代替 , 这样样本协方差阵为 . 现在找一条直线过原点, 方向为 , , 使 到直线的距离平方和最小. 容易看出 到直线的距离平方为 , 因此问题变为极小化 上式的极小值点是 对应最大特征值的特征向量 . 因此 适合作为第一主成分.
在 时, 容易与线性回归的几何意义作区别.
2 因子分析
假设一个班级的 6 个学生的成绩可以分解成 这里 是 的公共因子, 是特殊因子. 一般地, 这样假定是合理的:
- ,
- ,
- , .
现在计算 , 可见 从而 的方差由两部分组成: 一部分是 的第 行向量 的范数 , 另一部分是第 个特殊因子的方差 . 记 , 表明公共因子对 的影响大小, 称为贡献.
考虑 对 的影响, 记 , 称 是 对 的贡献. 与 PCA 类似, 是 在 上的载荷.
使 最大的 是最重要的公共因子, 使 最大的 是最依赖公共因子的指标. 而载荷 在 时恰好为 . 实际工作中, 希望载荷更加集中. 习惯上称 为载荷矩阵. 方便起见, 假设 .
2.1 载荷矩阵的求法
假设 已经标准化, 每个分量方差为 , 是相关矩阵. 假设 已知, 称 为约相关阵. 此时要求 . 利用 谱分解: 其中 是 对应 的规范化特征向量, . 于是取 这样的 还满足 : .
在上述情形下, 因子分析和主成分分析看似没啥区别, 但是主成分分析是找 的前 个特征向量, 而在因子分析中则从 出发.
接下来用 来求 . 根据 这里, 如果 , 则 . 这里 是 维正交阵, 因此 唯一, 称为因子空间, 且任一解都可以由上面已经求得的 经过旋转得到, 此时贡献 不改变, 但因子本身 会改变. 此时把模型 (2.1) 记为 这里 . 类似主成分分析, 我们希望各个因子的贡献"分散", 也即较多载荷接近零, 这样可以实现降维. 注意到 不受旋转影响, 因此贡献的分散程度可以由各个列的样本方差体现. 例如 , . 为了消除符号不同的影响, 考虑 代替 . 令
寻求 , 使 极大化, 这样旋转称为方差最大的正交旋转.
3 典型相关
现在讨论两个随机向量的互依性. 回忆我们引入了相关系数的概念来刻画两个随机变量的互依性; 引入了多重相关系数来刻画 的线性依赖性: . 现在对于两个随机向量, 进行推广
设 , 是两个随机向量, 是两个线性函数, 方差都是 . 记相关系数 . 如果 , 且 则 是 的典型相关系数, 是 的典型相关变量. 简记 .
从实际看, 反映了 综合指标的最大相关程度.
如果知道 的联合二阶矩, 容易推导典型相关系数/变量. 设 则 下面用 Lagrange 乘子法求解: 令 则
令 , , 则 , 且
由 这里, 有相同非零特征值. 上式表明 是它们的特征值, 格子有对应的特征向量 . 设 非零特征值个数为 (包括重数), 则 有 个稳定点, 个局部极值 . 这里 就是我们要求的典型相关系数, 对应的 给出了典型相关变量 (注意我们约定了 ). 这里 除了方向相反, 可以确定, 一般典型相关系数取正值.
实际应用中, 我们考虑多个综合指标. 第 组就是 , .
可以在 后添加 , 使 是 的正交规范化特征向量集, 类似有 . 记 , , 有 由于 , 又有 . 除了主对角元 外, 其余皆为 , 从而 因此寻求典型变量实际上就是线性变换原变量, 得到简单的协方差结构.
实际应用中, 可以抛弃较小的 , 设较大的为前 组. 记 是对应的前 列, 则可以用 来近似反映.
另一个统计解释是, 用 的线性函数预测 .. 使得均方误差最小的线性预测是 事实上, 设 是想求的预测. 由 (1.2), 由于 , 从而得到 (3.2).
典型变量的一个应用是给出 的公共因子, 即 : 且有
事实上可取 , 是 的前 列, 是 的前 列. 注意到 , , 有
因此如果记 , 有
记 , , , , , 就有 . 并且容易验算
故 是 的公共因子.
之前的旋转因子法在典型相关中不适用, 因为任何旋转都会破坏 (3.1).