6.3 方差分析

#FDistribution #HypothesisTesting #LinearModel #FeatureSelection #ANOVA

1 基本概念

回顾前面的定义, 方差分析是因子全都是属性因子的情况.

因子试验模型

例如影响小麦亩产量的因素有土地、品种、施肥量等, 它们实际上都只有有限种情形. 设因子 $F_{i}$ 有 $S_{i}$ 种不同情形, 则称 $F_{i}$ 有 $S_{i}$ 个水平. 把每个水平看作一个自变量 (而不是每个因子看作一个自变量), 只能取 $0, 1$ . 也即因子中有且仅有一个水平会取 $0$ . 与自变量 ( $0 / 1$ ) 相应的系数称为效应. 现在假设有两个因子, 第一个因子有 $β_{1}, β_{2}$ 两种效应; 第二种有 $γ_{1}, γ_{2}, γ_{3}$ 三种效应. 则各种搭配的模型为 $y_{i j} = θ_{0} + β_{i} + γ_{j} + ε_{i j}, i = 1, 2, j = 1, 2, 3,$ 其中 $θ_{0}$ 被称为平均效应, 代表其他因素. 矩阵记法为 $(\begin{matrix} y_{11} \\ y_{12} \\ y_{13} \\ y_{21} \\ y_{22} \\ y_{23} \end{matrix}) = (\begin{matrix} 1 & 1 & 0 & 1 & 0 & 0 \\ 1 & 1 & 0 & 0 & 1 & 0 \\ 1 & 1 & 0 & 0 & 0 & 1 \\ 1 & 0 & 1 & 1 & 0 & 0 \\ 1 & 0 & 1 & 0 & 1 & 0 \\ 1 & 0 & 1 & 0 & 0 & 1 \end{matrix}) (\begin{matrix} θ_{0} \\ β_{1} \\ β_{2} \\ γ_{1} \\ γ_{2} \\ γ_{3} \end{matrix}) + (\begin{matrix} ε_{11} \\ ε_{12} \\ ε_{13} \\ ε_{21} \\ ε_{22} \\ ε_{23} \end{matrix}),$ 简记为 $y = X θ + ε$ .

对于因子试验模型, 首先我们要确定各个水平效应是否相同; 如果相同, 说明这个因子其实没啥用, 它是不显著的; 反之则是显著的.
Fisher 由此引入了方差分析. 设在 $n$ 个试验点上做实验, 得到观察值向量 $y = (y_{1}, \dots, y_{n})^{T}$ , 满足线性模型 $y = X β + ε$ . 称 $| | y | |^{2} = y^{T} y = \sum_{i = 1}^{n} y_{i}^{2}$ 为总平方和. 如果 $| | y | |^{2}$ 可以分解为 $| | y | | = \sum_{j = 1}^{r} ξ_{j}$ , 而这些 $ξ_{j}$ 又有明确的统计解释, 则把这个分解称为方差分析.
实际中常常分解 $| | P_{1^{⊥}} y | |^{2} = \sum_{i = 1}^{n} (y_{i} - \overset{―}{y})^{2}$ . 由于 $| | P_{1^{⊥}} y | |^{2} = | | y | |^{2} - n {\overset{―}{y}}^{2},$ 所以实际上就是分解 $| | y | |^{2}$ . Cochran定理提供了理论支持.
这实际上是种狭义方差分析. 下面假设模型都满足 $ε \sim N_{n} (0, σ^{2} I_{n})$ .

2 单向分类模型

按因子的 $r$ 个水平将观察值分成 $r$ 个组, 记为 $y = (y_{11}, \dots, y_{1 n_{1}}, \dots, y_{r 1}, \dots, y_{r n_{r}}) = (y_{(1)}^{T}, \dots, y_{(r)}^{T})^{T} .$
其中 $y_{(i)}$ 是试验组取第 $i$ 个水平得到的观察值向量, $n_{i}$ 是重复试验的次数. 因此也称一种方式分组数据模型. 具体结构为 $y_{i k_{i}} = β_{0} + β_{i} + ε_{i k_{i}}, i = 1, \dots, r, k_{i} = 1, \dots, n_{i}, \sum_{i = 1}^{r} n_{i} = n .$
按照方差分析的思想, 定义 $y$ 的总的离差平方和 ${SS}_{T} = \sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - \overset{―}{y})^{2}$ 进行分解. $\overset{―}{y}$ 表示 $y$ 分量的总平均; ${\overset{―}{y}}_{i \cdot}$ 表示将观察值按照"·"的角标求和, 然后除以角标的取值个数: ${\overset{―}{y}}_{i \cdot} = \frac{1}{n_{i}} \sum_{k_{i} = 1}^{n_{i}} y_{i k_{i}}$ . 则 $\begin{aligned} {SS}_{T} & = \sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - {\overset{―}{y}}_{i \cdot} + {\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{2} \\ = \sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - {\overset{―}{y}}_{i \cdot})^{2} + \sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} ({\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{2}, \end{aligned}$ 这里最后一个等号是因为 $\sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - {\overset{―}{y}}_{i \cdot}) ({\overset{―}{y}}_{i \cdot} - \overset{―}{y}) = \sum_{i = 1}^{r} [({\overset{―}{y}}_{i \cdot} - \overset{―}{y}) \sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - {\overset{―}{y}}_{i \cdot})] = 0.$
记 $\begin{aligned} {SS}_{ε} & = \sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - {\overset{―}{y}}_{i \cdot})^{2}, \\ {SS}_{r} & = \sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} ({\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{2} = \sum_{i = 1}^{r} n_{i} ({\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{2}, \end{aligned}$ 则 ${SS}_{T} = {SS}_{ε} + {SS}_{r}$ .

注意到 ${SS}_{T} = | | P_{1_{n}^{⊥}} y | |^{2}$ . 由引理, $\frac{{SS}_{T}}{σ^{2}} \sim χ_{n - 1, δ}^{2}$ . 类似地 $\sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - {\overset{―}{y}}_{i \cdot})^{2} = | | P_{1_{n_{i}}^{⊥}} y | |^{2} \Rightarrow σ^{- 2} | | P_{1_{n_{i}}^{⊥}} y | |^{2} \sim χ_{n_{i} - 1}^{2} .$ 且由 $| | P_{1_{n_{i}}^{⊥}} y | |^{2}$ 的独立性, $σ^{- 2} {SS}_{ε} \sim χ_{n - r}^{2}$ . 这样 $σ^{- 2} {SS}_{r} \sim χ_{r - 1, δ}^{2}$ , $δ^{2} = \frac{| | P_{1_{n}} E y | |^{2}}{σ^{2}}$ . 而 Cochran 定理还指出 ${SS}_{ε} ⊥ ⊥ {SS}_{r}$ , 从而 $F \equiv \frac{{SS}_{r}}{{SS}_{ε}} \cdot \frac{n - r}{r - 1} \sim F_{r - 1, n - r, δ} .$
如果 $β_{1} = \dots = β_{r}$ , ${\overset{―}{y}}_{i \cdot}, {\overset{―}{y}}_{j \cdot}$ 甚至 $\overset{―}{y}$ 都理应没有显著差异; 否则, 若 $β_{i} \neq β_{j}$ , 则 $({\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{2}, ({\overset{―}{y}}_{j \cdot} - \overset{―}{y})^{2}$ 都会明显增加, ${SS}_{r}$ 会偏大. 因此假设 $H_{0} : β_{1} = \dots = β_{r}$ 的拒绝域为 ${F \geq F_{r - 1, n - r} (α)}$ . ^[1]

这样我们可以总结为

平方和来源	平方和	自由度	平均平方和	$F$ 值
类间	${SS}_{r} = \sum_{i = 1}^{r} n_{i} ({\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{2}$	$r - 1$	$\frac{{SS}_{r}}{r - 1}$	⬇️
误差	${SS}_{ε} = \sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - {\overset{―}{y}}_{i \cdot})^{2}$	$n - r$	$\frac{{SS}_{ε}}{n - r}$	$F = \frac{{SS}_{r}}{{SS}_{ε}} \cdot \frac{n - r}{r - 1}$
总计	${SS}_{T} = \sum_{i = 1}^{r} \sum_{k_{i} = 1}^{n_{i}} (y_{i k_{i}} - \overset{―}{y})^{2}$	$n - 1$	--	⬆️

3 两向分类模型

这就是这个例子中的情况. 即可按照第一个因子的不同水平分类, 也可按照第二个. 可以将数据设想成 $(\begin{matrix} y_{11} & y_{12} & y_{13} \\ y_{21} & y_{22} & y_{23} \end{matrix})$ . 一般地, $y_{i j} = θ_{0} + β_{i} + γ_{j} + ε_{i j}, i = 1, \dots, r, j = 1, \dots, c .$ 称 $y_{i j}$ 在 $(i, j)$ 格中. 每格也可以重复试验. 如果重复试验次数每格相等, 则是均衡的.

3.1 每格只进行一次试验

此时检验 $H_{01} : β_{1} = \dots = β_{r}$ 或者 $H_{02} : γ_{1} = \dots = γ_{c}$ .

推导

记 ${\overset{―}{y}}_{i \cdot} = \frac{1}{c} \sum_{j = 1}^{c} y_{i j}$ , ${\overset{―}{y}}_{\cdot j} = \frac{1}{r} \sum_{i = 1}^{r} y_{i j}$ . 进行如下分解: $\begin{aligned} {SS}_{T} & = \sum_{i = 1}^{r} \sum_{j = 1}^{c} (y_{i j} - \overset{―}{y})^{2} \\ = \sum_{i = 1}^{r} \sum_{j = 1}^{c} (y_{i j} - {\overset{―}{y}}_{i \cdot} - {\overset{―}{y}}_{\cdot j} + \overset{―}{y} + {\overset{―}{y}}_{i \cdot} - \overset{―}{y} + {\overset{―}{y}}_{\cdot j} - \overset{―}{y})^{2} \\ = \sum_{i = 1}^{r} \sum_{j = 1}^{c} (y_{i j} - {\overset{―}{y}}_{i \cdot} - {\overset{―}{y}}_{\cdot j} + \overset{―}{y})^{2} + \sum_{i = 1}^{r} c ({\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{2} + \sum_{j = 1}^{c} r ({\overset{―}{y}}_{\cdot j} - \overset{―}{y})^{2} \\ = {SS}_{ε} + {SS}_{r} + {SS}_{c} . \end{aligned}$
由前面的讨论知 $\begin{matrix} (3.1) & \frac{{SS}_{T}}{σ^{2}} \sim χ_{r c - 1, δ}^{2}, \frac{{SS}_{r}}{σ^{2}} \sim χ_{r - 1, δ_{r}}^{2}, \frac{{SS}_{c}}{σ^{2}} \sim χ_{c - 1, δ_{c}}^{2}, \end{matrix}$ 且有 $\begin{aligned} σ^{2} δ^{2} & = \sum_{i = 1}^{r} \sum_{j = 1}^{c} (E y_{i j} - E \overset{―}{y})^{2} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} (α_{i} - \overset{―}{α} + β_{j} - \overset{―}{β})^{2} \\ = \sum_{i = 1}^{r} c (α_{i} - \overset{―}{α})^{2} + \sum_{j = 1}^{c} r (β_{j} - \overset{―}{β})^{2} = σ^{2} (δ_{r}^{2} + δ_{c}^{2}) . \end{aligned}$
因此 $\frac{{SS}_{ε}}{σ^{2}} \sim χ_{n - r - c + 1}^{2}$ , 且与 ${SS}_{r}, {SS}_{c}$ 互相独立. 从而:

$H_{01}$ 成立时 $δ_{r}^{2} = 0$ , $\frac{{SS}_{r}}{σ^{2}} \sim χ_{r - 1}^{2}$ , 从而 $F_{1} = \frac{{SS}_{r}}{{SS}_{ε}} \cdot \frac{r c - r - c + 1}{r - 1} \sim F_{r - 1, r c - r - c + 1} .$ 取拒绝域 ${F_{1} \geq F_{r - 1, r c - r - c + 1} (α)}$ .
$H_{02}$ 成立时 $δ_{c}^{2} = 0$ , $\frac{{SS}_{c}}{σ^{2}} \sim χ_{c - 1}^{2}$ , 从而 $F_{2} = \frac{{SS}_{c}}{{SS}_{ε}} \cdot \frac{r c - r - c + 1}{c - 1} \sim F_{c - 1, r c - r - c + 1} .$ 取拒绝域 ${F_{2} \geq F_{c - 1, r c - r - c + 1} (α)}$ .

平方和来源	平方和	自由度	平均平方和	$F$ 值
行因子	${SS}_{r} = c \sum_{i = 1}^{r} ({\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{2}$	$r - 1$	$\frac{{SS}_{r}}{r - 1}$	$F_{1} = \frac{{SS}_{r}}{{SS}_{ε}} (c - 1)$
列因子	${SS}_{c} = r \sum_{j = 1}^{c} ({\overset{―}{y}}_{\cdot j} - \overset{―}{y})^{2}$	$c - 1$	$\frac{{SS}_{c}}{c - 1}$	$F_{2} = \frac{{SS}_{c}}{{SS}_{ε}} (r - 1)$
误差	${SS}_{ε} = {SS}_{T} - {SS}_{r} - {SS}_{c}$	$(r - 1) (c - 1)$	$\frac{{SS}_{ε}}{(r - 1) (c - 1)}$
总计	${SS}_{T} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} (y_{i j} - \overset{―}{y})^{2}$	$r c - 1$	--

3.2 每格有 $p$ 次试验

现在假设两因子试验有交互作用 $y_{i j k} = θ_{0} + β_{i} + γ_{j} + (β γ)_{i j} + ε_{i j k},$ $i = 1, \dots, r$ , $j = 1, \dots, c$ , $k = 1, \dots, p$ . $(β γ)_{i j}$ 表示行因子的第 $i$ 个水平和列因子的第 $j$ 个水平点交互效应. 这里除了 $H_{01}, H_{02}$ 外, 还需要检验 $H_{03} : (β γ)_{i j} 对 \forall (i, j) 均相同 .$
如果 $H_{03}$ 被接受, 则交互作用不显著; 否则需要推断哪种水平搭配最佳.

推导

模仿这里, $\begin{aligned} \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{p} (y_{i j k} - \overset{―}{y})^{2} \\ = & \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{p} (y_{i j k} - {\overset{―}{y}}_{i j \cdot})^{2} + \sum_{i = 1}^{r} \sum_{j = 1}^{c} p ({\overset{―}{y}}_{i j \cdot} - \overset{―}{y})^{2} \\ = & {SS}_{ε} + {SS}_{g} . \end{aligned}$ 其中 ${\overset{―}{y}}_{i j \cdot} = \frac{1}{p} \sum_{k = 1}^{p} y_{i j k}$ . 这里 ${SS}_{g} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} p ({\overset{―}{y}}_{i j \cdot} - \overset{―}{y})^{2}$ 表示各格间的离差平方和.
记 ${\overset{―}{y}}_{i \cdot \cdot} = \frac{1}{c p} \sum_{j = 1}^{c} \sum_{k = 1}^{p} y_{i j k}$ , ${\overset{―}{y}}_{\cdot j \cdot} = \frac{1}{r p} \sum_{i = 1}^{r} \sum_{k = 1}^{p} y_{i j k}$ . 则 $\begin{aligned} {SS}_{g} = & \sum_{i = 1}^{r} \sum_{j = 1}^{c} p ({\overset{―}{y}}_{i j \cdot} - {\overset{―}{y}}_{i \cdot \cdot} - {\overset{―}{y}}_{\cdot j \cdot} + \overset{―}{y})^{2} \\ + \sum_{i = 1}^{r} p c ({\overset{―}{y}}_{i \cdot \cdot} - \overset{―}{y})^{2} + \sum_{j = 1}^{c} p r ({\overset{―}{y}}_{\cdot j \cdot} - \overset{―}{y})^{2} \\ \equiv & {SS}_{r c} + {SS}_{r} + {SS}_{c}, \end{aligned}$ 于是有总平方和 $\begin{matrix} (3.2) & {SS}_{T} = {SS}_{ε} + {SS}_{r c} + {SS}_{r} + {SS}_{c} . \end{matrix}$
则 $\begin{aligned} \frac{{SS}_{T}}{σ^{2}} \sim χ_{r c p - 1, δ}^{2}, \frac{{SS}_{ε}}{σ^{2}} \sim χ_{r c (p - 1)}^{2}, \frac{{SS}_{r}}{σ^{2}} \sim χ_{r - 1, δ_{1}}^{2}, \frac{{SS}_{c}}{σ^{2}} \sim χ_{c - 1, δ_{2}}^{2} \\ \frac{{SS}_{r c}}{σ^{2}} \sim χ_{(r - 1) (c - 1), δ_{3}}^{2}, \end{aligned}$ 且除了 ${SS}_{T}$ 之外的几个都是独立的.

类似前面, $H_{01}, H_{02}$ 的统计量分别是 $F_{1} = \frac{{SS}_{r}}{{SS}_{ε}} \cdot \frac{r c (p - 1)}{r - 1}, F_{2} = \frac{{SS}_{c}}{{SS}_{ε}} \cdot \frac{r c (p - 1)}{c - 1},$ 拒绝域分别是 ${F_{1} \geq F_{r - 1, r c (p - 1)} (α)}$ , ${F_{2} \geq F_{c - 1, r c (p - 1)} (α)}$ .
而对 $H_{03}$ , 如果它成立(交互作用不显著), ${SS}_{g}$ 应该要小, 随之 ${SS}_{r c}$ 要小. #？从而 $H_{03}$ : $F_{3} = \frac{{SS}_{r c}}{{SS}_{ε}} \cdot \frac{r c (p - 1)}{(r - 1) (c - 1)} \sim F_{(r - 1) (c - 1), r c (p - 1), δ_{3}} .$ 这里 $δ_{3}^{2} = \frac{1}{σ^{2}} \sum_{i = 1}^{r} \sum_{j = 1}^{c} p (E {\overset{―}{y}}_{i j \cdot} - E {\overset{―}{y}}_{i \cdot \cdot} - E {\overset{―}{y}}_{\cdot j \cdot} + E \overset{―}{y})^{2} .$ 当 $H_{03}$ 成立, $δ_{3}^{2} = 0$ , 所以拒绝域为 ${F_{3} \geq F_{(r - 1) (c - 1), r c (p - 1)} (α)}$ .

平方和来源	平方和	自由度	均方	$F$ 值
行因子	${SS}_{r} = c p \sum_{i = 1}^{r} ({\overset{―}{y}}_{i \cdot \cdot} - \overset{―}{y})^{2}$	$r - 1$	$\frac{{SS}_{r}}{r - 1}$	$F_{1} = \frac{{SS}_{r}}{{SS}_{ε}} \cdot \frac{r c (p - 1)}{r - 1}$
列因子	${SS}_{c} = c p \sum_{j = 1}^{c} ({\overset{―}{y}}_{\cdot j \cdot} - \overset{―}{y})^{2}$	$c - 1$	$\frac{{SS}_{c}}{c - 1}$	$F_{2} = \frac{{SS}_{c}}{{SS}_{ε}} \cdot \frac{r c (p - 1)}{c - 1}$
交互作用	${SS}_{r c} = {SS}_{g} - {SS}_{r} - {SS}_{c}$	$(r - 1) (c - 1)$	$\frac{{SS}_{r c}}{(r - 1) (c - 1)}$	$F_{3} = \frac{{SS}_{r c}}{{SS}_{ε}} \cdot \frac{r c (p - 1)}{(r - 1) (c - 1)}$
格间	${SS}_{g} = p \sum_{i = 1}^{r} \sum_{j = 1}^{c} ({\overset{―}{y}}_{i j \cdot} - \overset{―}{y})^{2}$	$r c - 1$
误差	${SS}_{ε} = {SS}_{T} - {SS}_{g}$	$r c (p - 1)$	$\frac{{SS}_{ε}}{r c (p - 1)}$
总计	${SS}_{T} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{p} (y_{i j k} - \overset{―}{y})^{2}$	$r c p - 1$

3.3 非均衡情形

此时各格试验不全相等.
模型依然是 $y_{i j k} = θ_{0} + β_{i} + γ_{j} + (β γ)_{i j} + ε_{i j k},$ 这里 $i = 1, \dots, r$ , $j = 1, \dots, c$ , 但是 $k = k (i, j) = 1, \dots, n_{i j}$ .
此时前面的方差分析法没法直接搬用. 需要用附加约束法 #？给出. 附加以下约束: $\begin{aligned} \sum_{i = 1}^{r} n_{\cdot i} β_{i} = 0, \sum_{j = 1}^{c} n_{\cdot j} γ_{j} = 0, \\ (3.3) & \sum_{i = 1}^{r} n_{i \cdot} (β γ)_{i j} = \sum_{j = 1}^{c} n_{\cdot j} (β γ)_{i j} = 0, \end{aligned}$ 这里 $n_{i \cdot} = \sum_{j = 1}^{c} n_{i j}$ , $n_{\cdot j} = \sum_{i = 1}^{r} n_{i j}$ .
现在假设 $H_{01}, H_{02}, H_{03}$ 都已经由前面给出: $\begin{aligned} H_{01} : β_{1} = \dots = β_{r} = 0, \\ H_{02} : γ_{1} = \dots = γ_{c} = 0, \\ H_{03} : (β γ)_{11} = \dots = (β γ)_{r c} = 0. \end{aligned}$

推导

方法类似前面. 计算 ${SS}_{ε} = min_{(3.3)} \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{n_{i j}} [y_{i j k} - θ_{0} - β_{i} - γ_{j} - (β γ)_{i j}]^{2} .$ 分解里面的函数为 $\begin{aligned} \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{n_{i j}} [y_{i j k} - y_{i j \cdot} + \overset{―}{y} - θ_{0} + {\overset{―}{y}}_{i \cdot \cdot} - \overset{―}{y} - β_{i} \\ + {\overset{―}{y}}_{\cdot j \cdot} - \overset{―}{y} - γ_{j} + {\overset{―}{y}}_{i j \cdot} - {\overset{―}{y}}_{i \cdot \cdot} - {\overset{―}{y}}_{\cdot j \cdot} + \overset{―}{y} - (β γ)_{i j}]^{2} \\ = & \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{n_{i j}} [(y_{i j k} - y_{i j \cdot})^{2} + (\overset{―}{y} - θ_{0})^{2} + ({\overset{―}{y}}_{i \cdot \cdot} - \overset{―}{y} - β_{i})^{2} \\ (3.4) & + ({\overset{―}{y}}_{\cdot j \cdot} - \overset{―}{y} - γ_{j})^{2} + ({\overset{―}{y}}_{i j \cdot} - {\overset{―}{y}}_{i \cdot \cdot} - {\overset{―}{y}}_{\cdot j \cdot} + \overset{―}{y} - (β γ)_{i j})^{2}] . \end{aligned}$
在约束条件下, 交叉项全为 $0$ . 于是 ${SS}_{ε} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{n_{i j}} (y_{i j k} - y_{i j \cdot})^{2} .$
在 $H_{01}$ 和约束 (3.3) 下求上述极小值, 可以在 (3.4) 里面让 $β_{i} = 0$ , 从而 ${SS}_{01} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{n_{i j}} (y_{i j k} - y_{i j \cdot})^{2} + \sum_{i = 1}^{r} \sum_{j = 1}^{c} \sum_{k = 1}^{n_{i j}} ({\overset{―}{y}}_{i \cdot \cdot} - \overset{―}{y})^{2} .$

记 ${SS}_{r} = \sum_{i = 1}^{r} n_{i \cdot} ({\overset{―}{y}}_{i \cdot \cdot} - \overset{―}{y})^{2}$ , 有 $F_{1} = \frac{{SS}_{r}}{{SS}_{ε}} \cdot \frac{n - r c}{r - 1}$ , $n = \sum_{i = 1}^{r} \sum_{j = 1}^{c} n_{i j}$ .
类似地 ${SS}_{c} = \sum_{j = 1}^{c} n_{\cdot j} ({\overset{―}{y}}_{\cdot j \cdot} - \overset{―}{y})^{2}$ , 有 $F_{2} = \frac{{SS}_{c}}{{SS}_{ε}} \cdot \frac{n - r c}{c - 1}$ .
记 ${SS}_{r c} = \sum_{i = 1}^{r} \sum_{j = 1}^{c} n_{i j} ({\overset{―}{y}}_{i j \cdot} - {\overset{―}{y}}_{i \cdot \cdot} - {\overset{―}{y}}_{\cdot j \cdot} + \overset{―}{y})^{2},$ 有 $F_{3} = \frac{{SS}_{r c}}{{SS}_{ε}} \cdot \frac{n - r c}{(r - 1) (c - 1)}$ .

本节的方法可以推广到多因子分析情形, 没有原则性困难, 但是复杂程度会显著增加.

这个和 6.2 回归分析中的假设检验完全一致. 不过这里设计矩阵是 $0 - 1$ 矩阵, 计算简单很多. ↩︎