6.5 一般线性模型的统计推断

#LinearModel #GaussMarkovModel #BLUE #CompleteSufficient #ExponentialFamily #UMVUE #FDistribution #LikelihoodRatioTest #ANOVA

本节将脱离实际背景, 从理论上来讨论一般线性模型的参数统计推断. 考虑模型依然为 $y = X β + ε$ , 这里 $X \in R^{n \times p}$ , $rank X \leq p$ , $n \geq p$ . $β \in R^{p}$ 是未知参数向量. 误差向量 $ε : E ε = 0$ .

1 可估参数函数及其估计

我们从 $β$ 的最小二乘估计开始. 在这里我们得到它是正规方程 $\begin{matrix} (1.1) & X^{T} X \hat{β} = X^{T} y \end{matrix}$ 的解. 现在解释它的直观几何意义. 要使 $| | y - X β | |$
最小, 则 $X β$ 应该是 $y$ 在平面 $μ (X)$ 上的投影: $X \hat{β} = P_{X} y$ , 如图.
Pasted image 20260104152039.png|200
但是如果 $rank X < p$ , 正规方程 (1.1) 有无穷多的解, 此时 $β$ 是不可估的. 为此, 引入如下定义:

可估函数

设 $a^{T} β$ 是参数 $β$ 的线性函数. 如果有 $y$ 的线性函数 $c^{T} y$ : $E (c^{T} y) = a^{T} β$ , 则 $a^{T} β$ 是 $β$ 的可估函数; 否则 $a^{T} β$ 是不可估的.

定理 1.1

在 (1.1) 中, $a^{T} β$ 可估等价于 $a \in μ (X^{T})$ .

证明

根据定义 $a^{T} β$ 可估等价于 $\exists c$ , $\forall β \in R^{p}$ : $E (c^{T} y) = c^{T} X β = a^{T} β$ , 等价于 $\exists c$ : $c^{T} X = a^{T}$ , 等价于 $a \in μ (X^{T})$ .

推论

$X β$ 的每个分量 $e_{i}^{T} X β$ 都是可估的.
如果 $rank X = p$ , 则 $\forall a \in R^{p}$ , $a^{T} β$ 都是可估的; 如果 $rank X < p$ , 则 $β$ 至少有一个分量不可估.

不可估还可以用正规方程的多解性说明. 此时 $X^{T} X β = 0$ 有非零解 $β_{0}$ . 如果 $β_{*} = β + β_{0}$ , 则必有 $X β_{*} = X β$ , 而 $β$ 在模型中的作用是通过 $X β$ 体现的, 因此无法从模型推断 $β$ , $β_{*}$ .

如果 $a^{T} β$ 可估, 记它线性无偏估计的全体为 $E_{U} (a) = {c^{T} y | E (c^{T} y) = a^{T} β, \forall β \in R^{p}} .$

BLUE/MVLUE/Gauss-Markov 估计

如果 $b^{T} y \in E_{U} (a)$ 满足 $Var (b^{T} y) = min_{c^{T} y \in E_{U} (a)} Var (c^{T} y),$ 则称 $b^{T} y$ 是 $a^{T} β$ 的最优线性无偏估计(Best Linear Unbiased Estimation, BLUE), 或者极小方差线性无偏估计(MVLUE), 或者 Gauss-Markov 估计 (GME).

Gauss-Markov 定理

如果假设 $Cov ε = σ^{2} I$ (不相关、同方差), 且 $a^{T} β$ 可估, $\hat{β}$ 是正规方程的任一解, 则 $a^{T} \hat{β}$ 是 $a^{T} β$ 的唯一的 BLUE.

这表明, 如果 $a^{T} β$ 可估( $a \in μ (X)$ ), 则 $a^{T} \hat{β}$ 不依赖 $\hat{β}$ 是正规方程的哪个解. 因此, 不管 $X$ 是否满列秩, $X \hat{β}$ 总是唯一的.

证明

因为 $a^{T} β$ 可估, 所以 $\exists b \in R^{n}$ : $a^{T} = b^{T} X$ . 从而 $E (a^{T} \hat{β}) = E (b^{T} X \hat{β}) = E (b^{T} P_{X} y) = b^{T} P_{X} X β = b^{T} X β = a^{T} β,$ 得 $a^{T} \hat{β} \in E_{U} (a)$ .
$\forall c^{T} y \in E_{U} (a)$ , 易得 $a^{T} = c^{T} X$ , 于是 $a^{T} \hat{β} = c^{T} X \hat{β} = c^{T} P_{X} y$ . 这就有 $Var (c^{T} y) = σ^{2} c^{T} c \geq σ^{2} c^{T} P_{X} c = Var (c^{T} P_{X} y) = Var (a^{T} \hat{β}) .$ 得 $a^{T} \hat{β}$ 是 BLUE.
如果上式中等号成立, 有 $c^{T} c = c^{T} P_{X} c$ , 则 $\begin{aligned} c^{T} (I - P_{X}) c = c^{T} P_{X^{⊥}} c = 0 \\ \Rightarrow & | | P_{X} c | |^{2} = 0 \Rightarrow | | P_{X} c | |^{2} = 0 \Rightarrow P_{X^{⊥}} c = 0 \Rightarrow c = P_{X} c . \end{aligned}$ 因此 $c^{T} y = c^{T} P_{X} y = a^{T} \hat{β}$ . 这就证明了唯一性.

而如果取消 $Cov ε = σ^{2} I$ 的假定, 虽然可估性和最小二乘估计没有改变, 但是 $a^{T} \hat{β}$ 就不一定是 BLUE 了. 此时, 假设 $Cov ε = σ^{2} G$ , $G$ 是正定阵, 则模型为 $y \sim (X β, σ^{2} G)$ , 不难求出 BLUE: 令 $z = G^{- \frac{1}{2}} y$ , 原模型变为 $z \sim (G^{- \frac{1}{2}} X β, σ^{2} I)$ . 此时正规方程 $(X^{T} G^{- 1} X) \hat{β} = X^{T} G^{- 1} y$ 的解 $\hat{\hat{β}}$ , 则 $a^{T} β$ 的 BLUE 就是 $a^{T} \hat{\hat{β}}$ .
称 $\hat{\hat{β}}$ 是新模型的加权最小二乘估计.

回到模型 $y \sim (X β, σ^{2} I)$ , 记 $\hat{ε} = y - X \hat{β}$ 为剩余/残差, $| | \hat{ε} | |^{2} = | | P_{X^{⊥}} y | |^{2}$ 为剩余平方和. 我们在 6.2中看出 $\frac{| | \hat{ε} | |^{2}}{n - r}$ ( $r = rank X$ ) 是 $σ^{2}$ 的无偏估计, 记为 ${\hat{σ}}^{2}$ .

引理 1.1

对正态模型 $y \sim N_{n} (X β, σ^{2} I)$ , $T \equiv (y^{T} y, {\hat{β}}^{T} X^{T} X)$ 是关于 ${P_{(β, σ^{2})}}$ 的充分、完备统计量. 这里 $P_{(β, σ^{2})}$ 就是 $N_{n} (X β, σ^{2} I)$ , $β \in R^{p}$ , $σ^{2} > 0$ .

证明

计算密度函数 $\begin{aligned} f (y; β, σ^{2}) & = (2 π σ^{2})^{- \frac{n}{2}} \exp {- \frac{1}{2 σ^{2}} | | y - X β | |^{2}} \\ = (2 π σ^{2})^{- \frac{n}{2}} \exp {- \frac{1}{2 σ^{2}} | | y - X \hat{β} + X \hat{β} - X β | |^{2}} \\ = (2 π σ^{2})^{- \frac{n}{2}} \exp {- \frac{1}{2 σ^{2}} [y^{T} y - β^{T} X^{T} X \hat{β}]} \exp {- \frac{1}{2 σ^{2}} | | X β | |^{2}} . \end{aligned}$ 这是一个指数型分布族, 从而根据定理3.2, $T$ 是充分完备统计量.

从而

定理 1.2

对正态模型 $y \sim N_{n} (X β, σ^{2} I)$ , $a^{T} β$ 是可估的, 则 $a^{T} \hat{β}$ , $\hat{σ}$ 分别是 $a^{T} β$ , $σ^{2}$ 的唯一的 UMVUE.

证明

由 Gauss-Markov定理, $a^{T} \hat{β}$ , ${\hat{σ}}^{2}$ 分别是 $a^{T} β$ , $σ^{2}$ 的无偏估计.
不难把 $a^{T} \hat{β}$ , ${\hat{σ}}^{2}$ 表示成 $T$ 的函数. 设 $A$ 满足 $X^{T} X A^{T} = X^{T}$ . 因为 $a^{T} β$ 可估, $a^{T} = b^{T} X$ , 故 $a^{T} \hat{β} = b^{T} X \hat{β} = b^{T} A X^{T} X \hat{β},$ 且 ${\hat{σ}}^{2} = | | y - X \hat{β} | |^{2} = y^{T} y - {\hat{β}}^{T} X^{T} X \hat{β} = y^{T} y - {\hat{β}}^{T} X^{T} X A^{T} A X^{T} X \hat{β} .$ 根据上述引理和定理3.1, 得证.

2 受约束线性模型的参数估计

实际问题中我们也要给 $β$ 一个约束: $H β = ξ .$ 这里 $H \in R^{k \times p}$ . 设 $rank H = k$ . 则 $H$ 有右逆 $H_{r}$ , 即 $H H_{r} = I_{k}$ . 做变换 $z = y - X H_{r} ξ$ , $θ = β - H_{r} ξ$ , 则原模型变为 $z \sim (X θ, σ^{2} I; H θ = 0)$ . 由此, 可以不失一般性地讨论 $H β = 0$ . 下面就来讨论 $\begin{matrix} (2.1) & y \sim (X β, σ^{2} I; H β = 0) . \end{matrix}$
回顾定理1.1. 注意到证明中用了 $β$ 的任意性, 因此添加 $H β = 0$ 约束后, 可估的充要条件变为 $\exists c$ : $c^{T} X β = a^{T} β$ , $\forall H β = 0$ . 它等价于 $\exists c$ : $c^{T} X β = a^{T} β$ , $\forall β \in μ^{⊥} (H^{T})$ . 又等价于 $X^{T} c - a \in μ (H^{T})$ , 即 $a \in μ ((X^{T} H^{T})) = μ (X^{T}) + μ (H^{T}) .$
因为 $H β = 0$ , 则也理应有 $H \hat{β} = 0$ . 于是最小二乘推广为受约束最小二乘估计 ${\hat{β}}_{H}$ : $| | y - X {\hat{β}}_{H} | |^{2} = min_{H b = 0} | | y - X b | |^{2} .$ 注意到 $| | y - X b | |^{2} = | | y - X {\hat{β}}_{H} | |^{2} + | | X ({\hat{β}}_{H} - b) | |^{2} + 2 ({\hat{β}}_{H} - b)^{T} X^{T} (y - X {\hat{β}}_{H}) .$ 可知 ${\hat{β}}_{H}$ 是方程 $({\hat{β}}_{H} - b)^{T} X^{T} (y - X {\hat{β}}_{H}) = 0, \forall H b = 0$ 的解. 这等价于 $X^{T} (y - X {\hat{β}}_{H}) \in μ (H^{T})$ . 即 $\exists λ$ : $X^{T} y - X^{T} X {\hat{β}}_{H} = H^{T} λ$ . 从而 ${\hat{β}}_{H}$ 是方程 $\begin{matrix} (2.2) & (\begin{matrix} X^{T} X & H^{T} \\ H & 0 \end{matrix}) (\begin{matrix} X_{H} \\ λ \end{matrix}) = (\begin{matrix} X^{T} y \\ 0 \end{matrix}) \end{matrix}$ 的解. 把它作为 (2.1) 的正规方程.

不难证明上述方程是相容(有解)的.

证明

事实上, $p$ 维向量 $c$ 和 $k$ 维向量 $d$ 满足 $(c^{T} d^{T}) (\begin{matrix} X^{T} X & H^{T} \\ H & 0 \end{matrix}) = 0,$ 则有 $(c^{T} X^{T} X + d^{T} H c^{T} H^{T}) = 0 \Rightarrow H c = 0,$ 从而 $0 = c^{T} X^{T} X c + d^{T} H c = c^{T} X^{T} X c,$ 因而 $X c = 0$ , 故 $(c^{T} d^{T}) (\begin{matrix} X^{T} y \\ 0 \end{matrix}) = 0$ .

假设 (2.2) 解为 ${\hat{β}}_{H} = L y$ . 由 $H {\hat{β}}_{H} = 0$ , 得 $H L y = 0$ , 从而 $Cov (H L y) = σ^{2} H L L^{T} H^{T} = 0$ , 得 $H L = 0$ . 根据正规方程 $\begin{matrix} (2.3) & (X^{T} X) L y + H^{T} λ = X^{T} y \Rightarrow L^{T} (X^{T} X) L y = L^{T} X^{T} y . \end{matrix}$

又有 $L^{T} X^{T} X L = L^{T} X^{T}$ , 得 $X L$ 是幂等矩阵, 即 $P_{X L}$ . 从而 $X {\hat{β}}_{H} = P_{X L} y .$

对 $X L$ 给出如下引理:

引理 2.1

设 $L y$ 是 (2.2) 的任一解, $R$ 满足 $μ (R) = Ker (H)$ . 则 $μ (X L) = μ (X R)$ , 且 $rank (X R) = rank (\begin{matrix} X \\ H \end{matrix}) - rank H .$

证明

因为 $H R = 0$ : $R^{T} X^{T} X L y = R^{T} X^{T} y$ . (因为 (2.3)), 从而 $X R = L^{T} X^{T} X R = X L X R$ . 得 $μ (X R) \subset μ (X L)$ . 但是 $μ (L) \subset Ker (H) = μ (R)$ , 从而 $μ (X L) \subset μ (X R)$ , 从而 $μ (X L) = μ (X R)$ .
另一方面由这个结论: $\begin{aligned} rank (X R) & = rank R - \dim (μ (R) \cap Ker (X)) \\ = p - rank H - \dim (Ker (\begin{array}{c} X \\ H \end{array})) \\ = p - rank H - (p - rank (\begin{array}{c} X \\ H \end{array})) \\ (2.4) & = rank (\begin{array}{c} X \\ H \end{array}) - rank H = s . \end{aligned}$

定理 2.1

设 $y \sim (X β, σ^{2} I; H β = 0)$ , ${\hat{β}}_{H}$ 是受约束最小二乘估计 (不必唯一), $a^{T} β$ 可估, 则 $a^{T} {\hat{β}}_{H}$ 是 $a^{T} β$ 的唯一 BLUE.
记 ${\hat{σ}}_{H}^{2} = \frac{| | y - X {\hat{β}}_{H} | |^{2}}{n - s}$ , $s$ 定义见 (2.4), 则 ${\hat{σ}}_{H}^{2}$ 是 $σ^{2}$ 的无偏估计.

证明

因为 $a^{T} β$ 可估, $\exists d, λ$ : $a = X^{T} d + H^{T} λ$ . 且当 $c^{T} y$ 是 $a^{T} β$ 的线性无偏估计, 有 $μ : a = X^{T} c + H^{T} μ$ . 又注意到 $H β = P {\hat{β}}_{H} = 0$ , 然后参照 Gauss-Markov定理的证明, 则证毕.

2.1 如何附加约束

如何附加约束让原模型不缩小? 设模型为 $y = X β + ε$ , $β \in R^{p}$ . 现在希望 ${X β | β \in R^{p}} = {X β | H β = 0} = {X β | β \in Ker (H)} .$ 根据引理2.1, ${X β | β \in Ker (H)} = {X β | β \in μ (R)} = {X R β | β \in R^{p}} .$ 因此模型不缩小的充要条件是 $rank (X R) = rank ((X^{T} H^{T})) - rank H^{T} = rank X^{T},$ 等价于 $\begin{matrix} (2.5) & μ (X^{T}) \cap μ (H^{T}) = {0} . \end{matrix}$
如果 $rank X = r < p$ , 则 $H$ 秩至多为 $p - r$ .
在 (2.5) 下的约束, 对模型的统计推断没有实质性的影响. 从估计的角度, 我们有下列结果:

定理 2.2

设模型是 (2.1) 且满足 (2.5). 设可估 $a^{T} β$ 的 BLUE 是 $a^{T} {\hat{β}}_{H}$ , 则 $a^{T} {\hat{β}}_{H} = a^{T} \hat{β},$ 这里 $\hat{β}$ 是 $y \sim (X β, σ^{2} I)$ 的正规方程 $X^{T} X \hat{β} = X^{T} y$ 的满足 $H \hat{β} = 0$ 的解. 进而, 如果 $rank ((X^{T} H^{T})) = p$ , 上面的 ${\hat{β}}_{H}, \hat{β}$ 唯一.

证明

由可估性条件 $\exists c, μ$ : $a^{T} = c^{T} X + μ^{T} H$ . 根据这个式子, $a^{T} {\hat{β}}_{H} = (c^{T} X + μ^{T} H) {\hat{β}}_{H} = c^{T} X {\hat{β}}_{H} = c^{T} P_{X L} y .$ 根据 (2.5), $rank (X L) = rank ((X^{T} H^{T})) - rank H^{T} = rank X .$
因此 $P_{X L} = P_{X}$ , 从而 $a^{T} {\hat{β}}_{H} = c^{T} P_{X} y = c^{T} X \hat{β} = (a^{T} - μ^{T} H) \hat{β} = a^{T} \hat{β .}$
又有条件 $rank ((X^{T} H^{T})) = p$ , 则 $(\begin{matrix} X^{T} X & H^{T} \\ H & 0 \end{matrix})$ 满秩. 事实上, 若 $0 = (d^{T} f^{T}) (\begin{matrix} X^{T} X & H^{T} \\ H & 0 \end{matrix}) = (d^{T} X^{T} X + f^{T} H^{T} d^{T} H^{T}),$ 知 $d^{T} H^{T} = 0$ , $d^{T} X^{T} = 0$ , 得 $d^{T} (X^{T} X H^{T}) = 0$ , 从而 $d = 0$ , 从而 $f = 0$ . 这样 ${\hat{β}}_{H}$ 唯一. 且 $\hat{β}$ 作为 $(\begin{matrix} X^{T} X \\ H \end{matrix}) \hat{β} = (\begin{matrix} X^{T} y \\ 0 \end{matrix})$ 的解, 也是唯一的.

3 区间估计

接下来我们只讨论 $y \sim N_{n} (X β, σ^{2} I)$ . 先给出一个结果:

定理 3.1

设 $c^{T} \in R^{m \times p}$ , 满足 $c_{p \times m} = X^{T} K_{n \times m} + H^{T} S_{k \times m}$ , $\forall K, S$ , ${\hat{β}}_{H}$ 是 (2.2) 的解, ${SS}_{H ε} = | | y - X {\hat{β}}_{H} | |^{2}$ , 则

$c^{T} {\hat{β}}_{H} \sim N_{m} (K^{T} P_{X L} X β, σ^{2} K^{T} P_{X L} K)$ .
$\frac{{SS}_{H ε}}{σ^{2}} \sim χ_{n - s}^{2} (δ)$ , $s = rank ((X^{T} H^{T})) - rank H^{T}$ , $δ^{2} = \frac{β^{T} X^{T} P_{(X L)^{⊥}} X β}{σ^{2}}$ .
$c^{T} {\hat{β}}_{H} ⊥ ⊥ {SS}_{H ε}$ .

特别地, 当 $H = 0$ : $c = X^{T} K$ , $μ (X L) = μ (X)$ , ${\hat{β}}_{H} = \hat{β}$ , 则 $c^{T} \hat{β} \sim N_{m} (X β, σ^{2} K^{T} P_{X} K)$ , $\frac{{SS}_{ε}}{σ^{2}} \sim χ_{n - r}^{2}$ , $c^{T} \hat{β} ⊥ ⊥ {SS}_{ε}$ . 其中 ${SS}_{ε} = | | y - X \hat{β} | |^{2}$ , $r = rank X$ .
又如果 $H β = 0$ , 则 $E (c^{T} {\hat{β}}_{H}) = c^{T} β$ , $X \hat{β} \in μ (X L)$ , $δ^{2} = 0$ .

现在对于无约束模型 $y \sim N_{n} (X β, σ^{2} I)$ , 设 $c^{T} β$ 各分量均可估, 且 $rank c = m$ . 则有 $K : c = X^{T} K$ , 则 $K^{T} P_{X} K$ 是满秩的.

推导

设 $K^{T} P_{X} K t = 0$ , 则 $P_{X} K t = 0$ , 因此 $X^{T} P_{X} K t = X^{T} K t = c t = 0 \Rightarrow t = 0.$

根据定理 (3.1) 立即得 $F = \frac{(\hat{β} - β)^{T} c (K^{T} P_{X} K)^{- 1} c^{T} (\hat{β} - β)}{{SS}_{ε}} \cdot \frac{n - r}{m} \sim F_{m, n - r},$ 这是因为 $\begin{aligned} c^{T} (\hat{β} - β) = K^{T} X (\hat{β} - β) = K^{T} P_{X} (y - X β) \\ \Rightarrow & \frac{(\hat{β} - β)^{T} c (K^{T} P_{X} K)^{- 1} c^{T} (\hat{β} - β)}{σ^{2}} \sim χ_{m}^{2} . \end{aligned}$

则 $P {F \leq F_{m, n - r} (α)} = 1 - α$ .
记 $R^{m}$ 中椭球 $G (c^{T} \hat{β}) = {z | (z - c^{T} \hat{β})^{T} (K^{T} P_{X} K)^{- 1} (z - c^{T} \hat{β}) \leq \frac{m {SS}_{ε}}{n - r} F_{m, n - r} (α)},$ 则 $P {c^{T} β \in G (c^{T} \hat{β})} = 1 - α$ , 从而 $G (c^{T} \hat{β})$ 就是 $c^{T} β$ 的 $1 - α$ 置信系数的置信椭球.

特别地对 $m = 1$ , $a^{T} β$ 可估, 故 $\exists b : a = X^{T} b$ , 于是 $a^{T} \hat{β} \sim N_{1} (a^{T} β, σ^{2} b^{T} P_{X} b)$ , 得 $T = \frac{a^{T} (\hat{β} - β) \sqrt{n - r}}{\sqrt{{SS}_{ε} \cdot b^{T} P_{X} b}} \sim t_{n - r} .$ 不难算出置信区间 $a^{T} \hat{β} \pm \sqrt{\frac{{SS}_{ε} b^{T} P_{X} b}{n - r}} \cdot t_{n - r} (\frac{α}{2}) .$

4 一般线性假设检验

此时依然有 $y \sim N_{n} (X β, σ^{2} I)$ . 考虑一般线性假设 $H_{0} : H β = 0, rank H_{k \times p} = k .$
考虑似然比 $λ = \frac{M}{M_{H}} = \frac{max {L (y; β, σ^{2}) | β \in R^{p}, σ^{2} > 0}}{max {L (y; β, σ^{2}) | H β = 0, σ^{2} > 0}},$ 其中 $L (y; β, σ^{2}) = σ^{- n} \exp {- \frac{1}{2 σ^{2}} | | y - X β | |^{2}}$ . 记 $\begin{aligned} {SS}_{ε} & = min {| | y - X β | |^{2} | β \in R^{p}}, \\ {SS}_{H ε} & = min {| | y - X β | |^{2} | H β = 0} . \end{aligned}$ 前面得到 ${SS}_{ε} = | | y - X \hat{β} | |^{2}$ , ${SS}_{H ε} = | | y - X {\hat{β}}_{H} | |^{2}$ . 然后可以容易得到 $M = {(\frac{{SS}_{ε}}{n})}^{- \frac{n}{2}} \exp (- \frac{n}{2}), M_{H} = {(\frac{{SS}_{H ε}}{n})}^{- \frac{n}{2}} \exp (- \frac{n}{2}),$ 从而 $λ = \frac{M}{M_{H}} = {(\frac{{SS}_{ε}}{{SS}_{H ε}})}^{- \frac{n}{2}}$ .
对 $λ$ 变形: $λ = {(\frac{{SS}_{H ε} - {SS}_{ε}}{{SS}_{ε}} + 1)}^{\frac{n}{2}} = {(\frac{{SS}_{H}}{{SS}_{ε}} + 1)}^{\frac{n}{2}} .$
注意到 $λ$ 关于 $\frac{{SS}_{H}}{{SS}_{ε}}$ 严格增加, 似然比检验的否定域 ${λ \geq c}$ 易于用这个量表示. 这样再由定理3.1, $F = \frac{{SS}_{H}}{{SS}_{ε}} \cdot \frac{n - r}{r - s} \sim F_{r - s, n - r, δ},$ 其中 $r = rank X$ , $s = rank ((X^{T} H^{T})) - rank H^{T}$ , $δ^{2} = \frac{| | X β - X E {\hat{β}}_{H} | |^{2}}{σ^{2}}$ .
当假设成立, $F \sim F_{r - s, n - r}$ , 从而拒绝域为 ${F \geq F_{r - s, n - r} (α)}$ .

5 其他讨论

5.1 方差分析可行的条件

对于上面似然比引出的检验, 也可以用方差分析来解释: $\begin{aligned} | | y | |^{2} & = | | P_{X L} y | |^{2} + | | (P_{(X L)^{⊥}} - P_{X^{⊥}}) y | |^{2} + | | P_{X^{⊥}} y | |^{2} \\ \equiv | | P_{X L} y | |^{2} + {SS}_{H} + {SS}_{ε} . \end{aligned}$
这里 ${SS}_{ε}$ 是原模型的剩余平方和, 反映了模型的精确程度; ${SS}_{H}$ 是附加约束后和原模型的剩余平方和之差, 反映了约束带来的误差情况. 如果客观上 $H β = 0$ , 约束存在, 则 ${SS}_{H}$ 应该偏小.

引理 5.1

设 $y \sim N_{n} (μ, I)$ , 记 $ξ = y^{T} P_{L} y$ , $P_{L^{⊥}}$ 是到子空间 $L$ 的正交补空间的投影阵, 则 $ξ \sim χ_{d}^{2} (δ)$ , $d = n - \dim L$ , $δ^{2} = μ^{T} P_{L^{⊥}} μ$ , 并且 $E ξ = d + μ^{T} P_{L^{⊥}} μ .$ 故 $μ \overset{―}{\in} L$ 时 $ξ$ 有偏大趋向.

证明

$P_{L^{⊥}} = U U^{T}$ , 这里 $U^{T} U = I_{d}$ . 记 $c_{1} = \frac{U^{T} μ}{δ}$ , 作正交阵 $c = (c_{1}, \dots, c_{d})$ . 令 $x = c^{T} U^{T} y$ , 则 $E x = (δ, 0, \dots, 0)^{T}$ . 得 $x \sim N_{d} ((δ, 0, \dots, 0)^{T}, I_{d}), ξ = x^{T} x,$ 因此 $E ξ = E x_{1}^{2} + \sum_{i = 2}^{d} E x_{i}^{2} = d + δ^{2} .$

接下来讨论对设计矩阵 $X$ 要求. 设 $y \sim N_{n} (X β, σ^{2} I)$ . 剖分 $X = (X_{1} X_{2})$ , 相应地 $β^{T} = (β_{(1)}^{T} β_{(2)}^{T})$ . 记 $μ_{i} = μ (X_{i})$ , $μ = μ (X)$ . 给出方差分析可行的条件:

定理 5.1

$| | y | |^{2}$ 可以分解为独立的二次型的和 $\begin{matrix} (5.1) & | | y | |^{2} = {SS}_{ε} + {SS}_{1} + {SS}_{2} + {SS}_{g}, \end{matrix}$ 且 ${SS}_{1}, {SS}_{2}$ 可以分别解释为由第一/二个因子引起的平方和的充要条件是 $\begin{matrix} (5.2) & (μ \cap μ_{1}^{⊥}) ⊥ (μ \cap μ_{2}^{⊥}) . \end{matrix}$

证明

首先 $| | y | |^{2} = | | P_{μ} y | |^{2} + | | P_{μ^{⊥}} y | |^{2},$ 记 ${SS}_{ε} = | | P_{μ^{⊥}} y | |^{2}$ . 设 $H_{0 i} : β_{(i)} = 0$ 是要检验的零假设. 当 $H_{0 i}$ 成立, 模型剩余平方和是 $| | P_{μ_{3 - i}^{⊥}} y | |^{2}$ , 因此 ${SS}_{i} = | | P_{μ_{3 - i}^{⊥}} y | |^{2} - | | P_{μ^{⊥}} y | |^{2}, i = 1, 2$ 被认为是因子 $i$ 的存在引起的. 为了让它们和别的影响分离开来, 条件是 ${SS}_{1} ⊥ ⊥ {SS}_{2}$ , 并且 $| | y | |^{2} - {SS}_{ε} - {SS}_{1} - {SS}_{2} \equiv {SS}_{g}$ 是非负定二次型, 从而可以应用 Cochran 定理.
注意到 ${SS}_{1} = | | (P_{μ} - P_{μ_{2}}) y | |^{2}$ , 则 $P_{μ} - P_{μ_{2}} = P_{μ \cap μ_{2}^{⊥}}$ . 类似地 $P_{μ} - P_{μ_{1}} = P_{μ \cap μ_{1}^{⊥}}$ . 因此 (5.2) 确实就是充要条件.
由于 $\begin{aligned} {SS}_{g} & = | | y | |^{2} - | | P_{μ^{⊥} y} | |^{2} - | | P_{μ \cap μ_{1}^{⊥}} y | |^{2} - | | P_{μ \cap μ_{2}^{⊥}} y | |^{2} \\ = y^{T} [P_{μ} - (P_{μ \cap μ_{1}^{⊥}} + P_{μ \cap μ_{2}^{⊥}})] y, \end{aligned}$ 从而 $P_{μ \cap μ_{1}^{⊥}} + P_{μ \cap μ_{2}^{⊥}}$ 是正投影阵. 它是到 $L$ 的正投影( $μ \cap μ_{i}^{⊥} \subset μ$ ), 故 ${SS}_{g} = | | P_{μ L^{⊥}} y | |^{2}$ .

推论

设 $μ (X_{1}) \cap μ (X_{2}) = {0}$ , 则 (5.2) 成立的充要条件是 $μ_{1} ⊥ μ_{2}$ .

证明

充分性: 由条件 $μ = μ_{1} \oplus μ_{2}$ , 于是 $μ \cap μ_{1}^{⊥} = μ_{2}$ , $μ \cap μ_{2}^{⊥} = μ_{1}$ .
必要性: 因为 $(μ \cap μ_{1}^{⊥}) \oplus (μ \cap μ_{2}^{⊥}) \subset μ$ , 而 $μ = (μ \cap μ_{1}^{⊥}) \oplus μ_{1}$ , 故 $μ \cap μ_{2}^{⊥} \subset μ_{1}$ . 但是 $\dim (μ \cap μ_{2}^{⊥}) = \dim μ - \dim μ_{2} = \dim μ_{1}$ , 于是 $μ \cap μ_{2}^{⊥} = μ_{1}$ . 同理 $μ \cap μ_{1}^{⊥} = μ_{2}$ .

这表明 $rank X = p$ (列满秩) 时, 如果 $μ_{1}, μ_{2}$ 不正交, 将无法分解为 (5.1) 的样子. 由于在回归分析中我们都假定 $X$ 列满秩, 则 $X^{T} X$ 需要有分快对角形: $X^{T} X = (\begin{matrix} X_{1}^{T} X_{1} & 0 \\ 0 & X_{2}^{T} X_{2} \end{matrix}) .$
而对于方差分析模型, 要求不必如此严格. 例如对两向分类模型、每格试验次数相同的模型, 我们有 $X = (\underset{r}{\underset{⏟}{X_{1}}} \underset{c}{\underset{⏟}{X_{2}}}) = (\begin{array}{cccccccccc} 1_{p c} & 1_{p} \\ ⋱ & ⋱ \\ 1_{p c} & 1_{p} \\ ⋱ & ⋮ \\ 1_{p c} & 1_{p} \\ ⋱ & ⋱ \\ 1_{p c} & 1_{p} \end{array}) .$
设 $a = (a_{(1)}^{T}, \dots, a_{(r)}^{T})^{T} \in μ^{⊥} (X_{1})$ , 则 $a_{(i)}^{T} 1_{p c} = 0$ , $i = 1, \dots, r$ . 而 $μ (X)$ 中的一般元可记为 $t = X (\begin{matrix} u \\ v \end{matrix}) = (\begin{matrix} 1_{p c} u_{1} \\ ⋮ \\ 1_{p c} u_{r} \end{matrix}) + (1_{p} v_{1} 1_{p} v_{c} 1_{p} v_{c})^{T},$ 故 $t \in μ (X) \cap μ_{1^{⊥}} (X)$ 时 $u_{i} p c + p \sum_{j = 1}^{c} v_{j} = 0 \Rightarrow t = 1_{n} u_{0} + (1_{p} v_{1} 1_{p} v_{c} 1_{p} v_{c})^{T},$ 这里 $c u_{0} = - \sum_{j = 1}^{c} v_{j}$ , $n = r c p$ . 类似地 $s \in μ (X) \cap μ_{2^{⊥}} (X)$ 时 $s = (\begin{matrix} 1_{p c} w_{1} \\ ⋮ \\ 1_{p c} w_{r} \end{matrix}) + 1_{n} v_{0}, r v_{0} = - \sum_{i = 1}^{r} w_{i} .$ 从而 $t^{T} s = 0$ .

5.2 非线性模型

非线性模型有些时候可以转换为线性模型. 考虑 $y = F (x_{1}, \dots, x_{p}; β_{1}, \dots, β_{p}) + ε$ , 这里 $β_{1}, \dots, β_{p}$ 是未知参数, $ε$ 是随机误差. 如果 $\exists$ 可逆的连续函数 $f$ : $f (F (x_{1}, \dots, x_{p}; β_{1}, \dots, β_{p})) = \sum_{i = 1}^{p} g_{i} (x_{1}, \dots, x_{p}) φ_{i} (β_{1}, \dots, β_{p}),$ 且满足 $(x_{1}, \dots, x_{p}) \mapsto (g_{1}, \dots, g_{p}), (β_{1}, \dots, β_{p}) \mapsto (φ_{1}, \dots, φ_{p})$ 一一对应, 则记 $z = f (y)$ , ${\tilde{x}}_{i} = g_{i}$ , ${\tilde{β}}_{i} = φ_{i}$ , $i = 1, \dots, p$ . 原模型可以近似看成 $z = \sum_{i = 1}^{p} {\tilde{x}}_{i} {\tilde{β}}_{i} + \tilde{ε} .$

例子

如果得到某个关系为 $M = C \cdot L^{β_{1}} \cdot R^{β_{2}} + ε$ , 可以转化为 $y = \ln M = \ln C + β_{1} \ln L + β_{2} \ln R + \tilde{ε},$ 从而得到 $\hat{y} = {\hat{β}}_{0} + {\hat{β}}_{1} x_{1} + {\hat{β}}_{2} x_{2} \Rightarrow \hat{M} = {\hat{β}}_{0} L^{{\hat{β}}_{1}} R^{{\hat{β}}_{2} .}$