1 基本概念
回顾 前面的定义, 方差分析是因子全都是属性因子的情况.
例如影响小麦亩产量的因素有土地、品种、施肥量等, 它们实际上都只有有限种情形. 设因子 有 种不同情形, 则称 有 个水平. 把每个水平看作一个自变量 (而不是每个因子看作一个自变量), 只能取 . 也即因子中有且仅有一个水平会取 . 与自变量 () 相应的系数称为效应. 现在假设有两个因子, 第一个因子有 两种效应; 第二种有 三种效应. 则各种搭配的模型为 其中 被称为平均效应, 代表其他因素. 矩阵记法为 简记为 .
对于因子试验模型, 首先我们要确定各个水平效应是否相同; 如果相同, 说明这个因子其实没啥用, 它是不显著的; 反之则是显著的.
Fisher 由此引入了方差分析. 设在 个试验点上做实验, 得到观察值向量 , 满足线性模型 . 称 为总平方和. 如果 可以分解为 , 而这些 又有明确的统计解释, 则把这个分解称为方差分析.
实际中常常分解 . 由于 所以实际上就是分解 . Cochran定理 提供了理论支持.
这实际上是种狭义方差分析. 下面假设模型都满足 .
2 单向分类模型
按因子的 个水平将观察值分成 个组, 记为
其中 是试验组取第 个水平得到的观察值向量, 是重复试验的次数. 因此也称一种方式分组数据模型. 具体结构为
按照方差分析的思想, 定义 的总的离差平方和 进行分解. 表示 分量的总平均; 表示将观察值按照"·"的角标求和, 然后除以角标的取值个数: . 则 这里最后一个等号是因为
记 则 .
注意到 . 由 引理, . 类似地 且由 的独立性, . 这样 , . 而 Cochran 定理还指出 , 从而
如果 , 甚至 都理应没有显著差异; 否则, 若 , 则 都会明显增加, 会偏大. 因此假设 的拒绝域为 .
这样我们可以总结为
| 平方和来源 |
平方和 |
自由度 |
平均平方和 |
值 |
| 类间 |
|
|
|
⬇️ |
| 误差 |
|
|
|
|
| 总计 |
|
|
-- |
⬆️ |
3 两向分类模型
这就是 这个例子 中的情况. 即可按照第一个因子的不同水平分类, 也可按照第二个. 可以将数据设想成 . 一般地, 称 在 格中. 每格也可以重复试验. 如果重复试验次数每格相等, 则是均衡的.
3.1 每格只进行一次试验
此时检验 或者 .
记 , . 进行如下分解:
由前面的讨论知 且有
因此 , 且与 互相独立. 从而:
- 成立时 , , 从而 取拒绝域 .
- 成立时 , , 从而 取拒绝域 .
| 平方和来源 |
平方和 |
自由度 |
平均平方和 |
值 |
| 行因子 |
|
|
|
|
| 列因子 |
|
|
|
|
| 误差 |
|
|
|
|
| 总计 |
|
|
-- |
|
现在假设两因子试验有交互作用 , , . 表示行因子的第 个水平和列因子的第 个水平点交互效应. 这里除了 外, 还需要检验 对均相同
如果 被接受, 则交互作用不显著; 否则需要推断哪种水平搭配最佳.
模仿 这里, 其中 . 这里 表示各格间的离差平方和.
记 , . 则 于是有总平方和
则 且除了 之外的几个都是独立的.
类似前面, 的统计量分别是 拒绝域分别是 , .
而对 , 如果它成立(交互作用不显著), 应该要小, 随之 要小. #? 从而 : 这里 当 成立, , 所以拒绝域为 .
| 平方和来源 |
平方和 |
自由度 |
均方 |
值 |
| 行因子 |
|
|
|
|
| 列因子 |
|
|
|
|
| 交互作用 |
|
|
|
|
| 格间 |
|
|
|
|
| 误差 |
|
|
|
|
| 总计 |
|
|
|
|
3.3 非均衡情形
此时各格试验不全相等.
模型依然是 这里 , , 但是 .
此时前面的方差分析法没法直接搬用. 需要用附加约束法 #? 给出. 附加以下约束: 这里 , .
现在假设 都已经由前面给出:
方法类似前面. 计算 分解里面的函数为
在约束条件下, 交叉项全为 . 于是
在 和约束 (3.3) 下求上述极小值, 可以在 (3.4) 里面让 , 从而
- 记 , 有 , .
- 类似地 , 有 .
- 记 有 .
本节的方法可以推广到多因子分析情形, 没有原则性困难, 但是复杂程度会显著增加.