7.3 多元线性模型

#LinearModel #MLE #MultinomialDistribution #GaussMarkovModel

我们在 6.1 线性模型的概念和分类开始讨论了一个因变量的线性模型. 现在推广到多个因变量.

1 多元线性模型

设计矩阵和之前相同: $X = (\begin{matrix} x_{11} & \dots & x_{1 q} \\ ⋮ & ⋮ \\ x_{n 1} & \dots & x_{n q} \end{matrix})$ . 而这里 $n$ 个观察值 $y_{1}, \dots, y_{n} \in R^{p}$ , 记为 $Y = (\begin{matrix} y_{11} & \dots & y_{1 p} \\ ⋮ & ⋮ \\ y_{n 1} & \dots & y_{n p} \end{matrix})$ . 误差矩阵 $ε = (\begin{matrix} ε_{11} & \dots & ε_{1 p} \\ ⋮ & ⋮ \\ ε_{n 1} & \dots & ε_{n p} \end{matrix})$ . 未知参数矩阵 $B = (\begin{matrix} β_{11} & \dots & β_{1 p} \\ ⋮ & ⋮ \\ β_{q 1} & \dots & β_{q p} \end{matrix})$ . $β_{j}$ (第 $j$ 列) 影响实验结果的第 $j$ 个指标.
记 $Y$ 的第 $j$ 列为 $Y_{j}$ , 则 $Y_{j} = X β_{j} + ε_{j}, j = 1, \dots, p .$
看起来多元线性模型就是 $p$ 个一元线性模型的混合, 但是不同之处是我们要考虑 $p$ 个指标之间存在相关关系.
设观察值矩阵 $Y$ 的各行互不相关, 有相同的协方差阵 $Σ$ : $Cov (y_{α}, y_{β}) = δ_{α β} Σ .$
因此我们修改记法为

一般多元线性模型

以下模型称为一般多元线性模型 ^[1]:

\begin{matrix} (1.1) & Y = X B + ε, \end{matrix}

且附加假定 $E ε = 0$ , $ε$ 各行不相关, 有共同协方差阵 $Σ > 0$ .

它就是一元线性模型的推广, 把 $β, σ^{2} > 0$ 推广为 $B, Σ > 0$ .

2 参数估计及其分布

大多数情形下考虑列满秩情形: $rank X = q$ .
下面讨论 $B$ 的估计. 设估计为 $\hat{B}$ , 则残差为 $\hat{ε} = Y - X \hat{B}$ . 可以定义残差阵 ${\hat{ε}}^{T} \hat{ε}$ . 我们希望好的 $\hat{B}$ 满足: $(Y - X B)^{T} (Y - X B) - (Y - X \hat{B})^{T} (Y - X \hat{B}) \geq 0$ (也即非负定), 或记为 $(Y - X B)^{T} (Y - X B) \geq (Y - X \hat{B})^{T} (Y - X \hat{B}), \forall B .$

这是一个很强的结果. 当 $C \geq D \geq 0$ , 它们由大到小的特征值 $λ_{i} (C), λ_{i} (D)$ 满足 $λ_{i} (C) \geq λ_{i} (D)$ , $i = 1, \dots, rank D$ . 因此 $\prod_{i = 1}^{r} λ_{i} (C) \geq \prod_{i = 1}^{r} λ_{i} (D)$ , $tr C \geq tr D$ 等性质成立.

定理 2.1

模型 (1.1) 满足正规方程 $\begin{matrix} (2.1) & X^{T} X B = X^{T} Y . \end{matrix}$
对 $\hat{B}$ , 残积阵为 $R_{0} = Y^{T} P_{X^{⊥}} Y$ .

证明

用平方和分解法: $\begin{aligned} (Y - X B)^{T} (Y - X B) = & (Y - X \hat{B})^{T} (Y - X \hat{B}) + (X \hat{B} - X B)^{T} (X \hat{B} - X B) \\ + (Y - X \hat{B})^{T} (X \hat{B} - X B) + (X \hat{B} - X B)^{T} (Y - X \hat{B}) . \end{aligned}$
因为 $\hat{B}$ 满足正规方程 (2.1), 则上式后面两项为零, 从而 $\begin{aligned} (Y - X B)^{T} (Y - X B) - (Y - X \hat{B})^{T} (Y - X \hat{B}) \\ = & (X \hat{B} - X B)^{T} (X \hat{B} - X B) \geq 0. \end{aligned}$
等号成立当且仅当 $X (\hat{B} - B) = 0$ , 由此 $X^{T} X (\hat{B} - B) = 0$ . 又因为 $X^{T} X$ 可逆, 所以 $B = \hat{B}$ . 因此另一估计的残积阵与 $\hat{B}$ 的相同, 这个估计一定是 $\hat{B}$ .
由于 $\hat{B} = (X^{T} X)^{- 1} X^{T} Y$ , 即得 $(Y - X \hat{B})^{T} (Y - X \hat{B}) = Y^{T} (I - X (X^{T} X)^{- 1} X^{T}) Y = Y^{T} P_{X^{⊥}} Y .$ 记为 $R_{0}$ .

类似 Gauss-Markov定理:

定理 2.2

参数 $tr (C^{T} B)$ 的一切线性无偏估计中, $tr (C^{T} \hat{B})$ 是 BLUE, 这里 $\hat{B} = (X^{T} X)^{- 1} X^{T} Y$ 是 $B$ 的最小二乘估计.

证明

因为 $\forall B$ : $E [tr (D^{T} Y)] = tr (C^{T} B)$ , 从而 $tr (D^{T} X B) = tr (C^{T} B) \Rightarrow tr ((D^{T} X - C^{T}) B) = 0,$ 故 $D^{T} X = C^{T}$ . 这是无偏性的充要条件. 容易看出 $\hat{B}$ 是 $B$ 的无偏估计.
注意到 $X \hat{B} = P_{X} Y$ , 我们有 $tr (C^{T} \hat{B}) = tr (D^{T} X \hat{B}) = tr (D^{T} P_{X} Y) .$
对任意的 $tr (A^{T} Y)$ , $\begin{aligned} Var (tr (A^{T} Y)) = Var (tr (Y A^{T})) = Var (\sum_{α = 1}^{n} y_{α}^{T} a_{α}) \\ = & \sum_{α = 1}^{n} a_{α}^{T} Σ a_{α} = tr (Σ A^{T} A), A^{T} = (a_{1}, \dots, a_{n}), \end{aligned}$ 因此 $\begin{aligned} Var (tr (C^{T} \hat{B})) & = Var (tr (D^{T} P_{X} Y)) = tr (Σ D^{T} P_{X} D) \\ \leq tr (Σ D^{T} D) = D (tr (D^{T} Y)), \end{aligned}$ 等号成立等且仅当 $tr (Σ^{\frac{1}{2}} D^{T} (I - P_{X}) D Σ^{\frac{1}{2}}) = 0 \Rightarrow (I - P_{X}) D Σ^{\frac{1}{2}} = 0 ⟺ D = P_{X} D,$ 于是 $D^{T} Y = D^{T} P_{X} Y = D^{T} X \hat{B} = C^{T} \hat{B} .$

2.1 正态性假设下的讨论

采用 (2.1) 的记号, 设 $ε \sim N_{n p} (0, I, Σ),$ 接下来讨论这样的正态模型.

定理 2.3

设 $\hat{B}$ 是 $B$ 的最小二乘估计, $R_{0} = Y^{T} P_{X^{⊥}} Y$ 是残积阵, $\hat{Σ} = \frac{1}{n} R_{0}$ , 则 $(\hat{B}, \hat{Σ})$ 是 $(B, Σ)$ 的极大似然估计.

证明

此时似然函数为 $L (Y, B, Σ) = C (det Σ)^{- \frac{n}{2}} \exp {- \frac{1}{2} \sum_{α = 1}^{n} (y_{α} - B^{T} x_{α})^{T} Σ^{- 1} (y_{α} - B^{T} x_{α})},$
其中 $x_{α}^{T}$ 是 $X$ 的第 $α$ 行. 注意到 $\begin{aligned} \sum_{α = 1}^{n} (y_{α} - B^{T} x_{α})^{T} Σ^{- 1} (y_{α} - B^{T} x_{α}) \\ = & tr (Σ^{- 1} \sum_{α = 1}^{n} (y_{α} - B^{T} x_{α}) (y_{α} - B^{T} x_{α})^{T}) \\ = & tr {Σ^{- 1} [(Y - X \hat{B})^{T} (Y - X \hat{B}) + (X \hat{B} - X B)^{T} (X \hat{B} - X B)]} \\ \geq & tr (Σ^{- 1} Y^{T} P_{X^{⊥}} Y) \\ = & tr (Σ^{- 1} R_{0}) . \end{aligned}$
等号成立当且仅当 $B = \hat{B}$ . 后面部分和这个定理的证明完全一致.

和这个定理类似, 可以证明 $(\hat{B}, \frac{R_{0}}{n - q})$ 是 $(B, Σ)$ 的 UMVUE, 方法完全类似. 在没有正态性的假设下, 依然有 $\frac{R_{0}}{n - q}$ 是 $Σ$ 的无偏估计.
事实上, 因为 $P_{X^{⊥}}$ 是 $n - q$ 秩的正投影阵, 必然存在正交 $U$ : $U^{T} P_{X^{⊥}} U = (\begin{matrix} I_{n - q} & 0 \\ 0 & 0 \end{matrix}),$ 于是 $R_{0} = Y^{T} U U^{T} P_{X^{⊥}} U U^{T} Y = Y^{T} U (\begin{matrix} I_{n - q} & 0 \\ 0 & 0 \end{matrix}) U^{T} Y .$
注意到 $Z = U^{T} Y \sim N_{n p} (0, I, Σ)$ , 记 $Z^{T} = (Z_{1}, \dots, Z_{n})$ , 有 $R_{0} = \sum_{α = 1}^{n - q} Z_{α} Z_{α}^{T}$ , 因此 $E R_{0} = \sum_{α = 1}^{n - q} E [Z_{α} Z_{α}^{T}] = (n - q) Σ .$

定理 2.4

\hat{B}

和

R_{0}

的分布

假设 (1.1) 是正态模型. 则

$\hat{B} \sim N_{q p} (B, (X^{T} X)^{- 1}, Σ)$ .
$R_{0} \sim W_{p} (n - q, Σ)$ .
$\hat{B} ⊥ ⊥ R_{0}$ .

证明

4. 由 $\hat{B} = (X^{T} X)^{- 1} X^{T} Y$ 和这个定理2.1 立即得到.
5. 由定理2.2 和定理2.3(1) 得.
6. 由定理2.3(2) 得.

2.2 多元情形的推广

设因变量 $Y_{1}, \dots, Y_{p}$ 对 $X_{1}, \dots, X_{q}$ 的统计依赖表现为: 给定 $X_{1}, \dots, X_{q}$ , 有 $\begin{matrix} (2.2) & (Y_{1}, \dots, Y_{p}) = (1, X_{1}, \dots, X_{q}) B + (ε_{1}, \dots, ε_{p}), \end{matrix}$ 其中 $B = (\begin{matrix} β_{01} & \dots & β_{0 p} \\ β_{11} & \dots & β_{1 p} \\ ⋮ & ⋮ \\ β_{q 1} & \dots & β_{q p} \end{matrix})$ . 称 $β_{i j}$ 是自变量 $X_{i}$ 对因变量 $Y_{j}$ 的效应. (2.2) 称为总体回归模型.
根据性质5, 当 $(Y_{1}, \dots, Y_{p}, X_{1}, \dots, X_{q}) = Z \sim N_{p + q} (v, V)$ 时, 记 $v = (\begin{matrix} E Y \\ E X \end{matrix}), V = (\begin{matrix} Σ_{Y Y} & Σ_{Y X} \\ Σ_{X Y} & Σ_{X X} \end{matrix}), V > 0,$ 则 $X_{1}, \dots, X_{q}$ 给定时, $Y | X \sim N_{p} (E Y + Σ_{Y X} Σ_{X X}^{- 1} (X - E X), Σ_{Y Y} - Σ_{Y X} Σ_{X X}^{- 1} Σ_{X Y}),$ 这里 $Y = (Y_{1}, \dots, Y_{p})^{T}$ . 可见总体回归函数是 $\begin{matrix} (2.3) & E Y + Σ_{Y X} Σ_{X X}^{- 1} (X - E X) . \end{matrix}$ 不难看出, 以回归方程 $\hat{Y} = E Y + Σ_{Y X} Σ_{X X}^{- 1} (X - E X)$ 做 $Y$ 的预测, 预测误差的协方差阵是 $Σ_{Y Y} - Σ_{Y X} Σ_{X X}^{- 1} Σ_{X Y} .$ 这些都是一元情形的自然推广.

类似地, 由最小二乘估计得回归系数的估计 $\begin{aligned} \hat{B} & = [(1 X)^{T} (1 X)]^{- 1} (1 X)^{T} Y \\ = {(\begin{array}{c} n & 1^{T} X \\ X^{T} 1 & X^{T} X \end{array})}^{- 1} (1 X)^{T} Y \\ = (\begin{array}{c} \frac{1}{n} + \frac{1^{T} X}{n} (X^{T} P_{1^{⊥}} X)^{- 1} \frac{X^{T} 1}{n} & - \frac{1^{T} X}{n} (X^{T} P_{1^{⊥}} X)^{- 1} \\ - (X^{T} P_{1^{⊥}} X)^{- 1} \frac{X^{T} 1}{n} & (X^{T} P_{1^{⊥}} X)^{- 1} \end{array}) (\begin{array}{c} 1^{T} Y \\ X^{T} Y \end{array}) \\ = (\begin{array}{c} \frac{1^{T} Y}{n} - \frac{1^{T} X}{n} (X^{T} P_{1^{⊥}} X)^{- 1} (X^{T} P_{1^{⊥}} Y) \\ (X^{T} P_{1^{⊥}} X)^{- 1} (X^{T} P_{1^{⊥}} Y) \end{array}) . \end{aligned}$
这和总体回归情形用样本矩代替总体矩得到的结果完全一致, 和一元情形也相仿.

3 线性假设检验

3.1 检验参数矩阵

先讨论 (2.2) 的假设检验. 此时假设为 $H_{0} : B_{1} = (\begin{matrix} β_{11} & \dots & β_{1 p} \\ ⋮ & ⋮ \\ β_{q 1} & \dots & β_{q p} \end{matrix}) = 0 .$
对正态模型, 令似然比 $λ = \frac{max {L (Y, B, Σ) | B, Σ > 0}}{max {L (Y, β_{0}, Σ) | β_{0}, Σ > 0}} \equiv \frac{M}{M_{H}} .$ 其中 $β_{0}$ 是 $B$ 的第一个行向量. 由定理2.3, $M = C {[det (\frac{R_{0}}{n})]}^{- \frac{n}{2}} \exp {- \frac{n}{2}} .$
而 $H_{0}$ 成立时 $L (Y, β_{0}, Σ) = C (det Σ)^{- \frac{n}{2}} \exp {- \frac{1}{2} tr (Σ^{- 1} \sum_{α = 1}^{n} (y_{α} - β_{0}) (y_{α} - β_{0})^{T})} .$
注意到 $\begin{aligned} \sum_{α = 1}^{n} (y_{α} - β_{0}) (y_{α} - β_{0})^{T} & = \sum_{α = 1}^{n} (y_{α} - \overset{―}{y}) (y_{α} - \overset{―}{y})^{T} + n (\overset{―}{y} - β_{0}) (\overset{―}{y} - β_{0})^{T} \\ = Y^{T} P_{1^{⊥}} Y + n (\overset{―}{y} - β_{0}) (\overset{―}{y} - β_{0})^{T}, \end{aligned}$ 得 $M_{H} = C {[det (\frac{Y^{T} P_{1^{⊥}} Y}{n})]}^{- \frac{n}{2}} \exp {- \frac{n}{2}} .$
记 $Y^{T} P_{1^{⊥}} Y = R_{1}$ . 有 $λ = {(\frac{det R_{0}}{det R_{1}})}^{- \frac{n}{2}}$ . 它是 $Λ = \frac{det R_{0}}{det R_{1}}$ 的严格下降函数, 因此拒绝域为 ${Λ \leq C_{α}}$ . 由于 $R_{0} \sim W_{p} (n - q - 1, Σ)$ ,^[2] 当 $H_{0}$ 成立时, $R_{1} \sim W_{p} (n - 1, Σ)$ , 得 $R_{1} - R_{0} ⊥ ⊥ R_{0}$ , 且 $R_{1} - R_{0} \sim W_{p} (q, Σ)$ . 故 $Λ \sim Λ (p, n - q - 1, q) .$

3.2 检验单一效应

当 $H_{0}$ 被拒绝, 接受回归模型 (2.2). 类似一元情形, 检验 $X_{i}$ 效应的显著性: $H_{0 i} = β_{i 1} = \dots = β_{i p} = 0, i = 1, \dots, q .$ 类似上面, 用似然比检验, 容易验证, $H_{0 i}$ 成立时, $R_{1 i} = Y^{T} P_{μ_{i}^{⊥}} Y$ , 这里 $μ_{i}$ 是 $(1 X)$ 划去 $X$ 的第 $i$ 列后长成的线性空间, 于是有 $R_{1 i} \sim W_{p} (n - q, Σ, Δ)$ . 当假设成立时, 有 $R_{1 i} \sim W_{p} (n - q, Σ)$ , $R_{1 i} - R_{0} \sim W_{p} (1, Σ)$ . 于是有 $Λ = \frac{det R_{0}}{det R_{1 i}} \sim Λ (p, n - q - 1, 1) .$ 令 $F = \frac{1 - Λ}{Λ} \cdot \frac{n - q - p}{p}$ , 当 $H_{0 i}$ 成立时 $\frac{1 - Λ}{Λ} \cdot \frac{n - q - p}{p} \sim F_{p, n - p - q},$ 故得拒绝域 ${Λ^{- 1} \geq 1 + \frac{p}{n - p - q} \cdot F_{p, n - p - q, α}}$ .^[2:1]

3.3 变量的选择

在多元情形, 就算自变量 $X_{i}$ 对整个因变量集的效应是显著的, 也不见得它对单个因变量都是显著的. 从而我们可以检验 $B$ 的列向量是否为 $0$ . 另外就算自变量对整个 $Y$ 不显著, 对单个因变量也可能显著. 所以问题变得很复杂.

在这里我们讨论一般线性假设 $H_{0} : H B G = 0$ .
这里 $H \in R^{k \times q}$ , $G \in R^{p \times r}$ , 且 $rank H = k$ , $rank G = r$ .

先讨论一般线性假设 $H_{0} : H B = 0$ . 此约束下的 ${\hat{B}}_{H}$ , 相当于在约束 $H β_{j} = 0$ 下的最小二乘估计, 故有 $X {\hat{B}}_{H} = P_{X Q} Y$ , 这里 $Q$ 是 $q$ 阶方针: $Im (Q) = Ker (H)$ . 实际上可取 $Q = I - H^{T} (H H^{T})^{- 1} H \equiv P_{{H^{T}}^{⊥}},$ 它是到 $Im (H^{T})$ 的正交补空间的投影阵. 记 ${\hat{B}}_{H}$ 的残积阵为 $R_{H}$ , 则 $R_{H} = Y^{T} P_{(X Q)^{⊥}} Y,$ 从而仿照前面, 似然比 $λ = \frac{M}{M_{H}}$ 是 $Λ = \frac{det R_{0}}{det R_{H}}$ 的严格下降函数. 因此 $H B = 0$ 的拒绝域为 ${Λ \leq C_{α}}$ . 根据 (2.4), 知 $rank P_{(X Q)^{⊥}} = n - [rank ((X^{T} H^{T})) - rank H^{T}] \equiv n - s,$ 因此 $H_{0}$ 成立时 $Λ \sim Λ (p, n - q, q - s)$ . 只有在特殊情况下才等价于 $F$ 检验.

回到 $H_{0} : H B G = 0$ . 令 $Z = Y G, Θ = B G$ , 则模型变为 $Z = X Θ + ε G, ε G \sim N_{n r} (0, I, G^{T} Σ G) .$ 假设变为 ${\tilde{H}}_{0} : H Θ = 0$ . 从而类似上面, 检验统计量为 $Λ = \frac{det (Z^{T} P_{X^{⊥}} Z)}{det (Z^{T} P_{(X Q)^{⊥}} Z)} = \frac{det (G^{T} Y^{T} P_{X^{⊥}} Y G)}{det (G^{T} Y^{T} P_{(X Q)^{⊥}} Y G)} .$ $H_{0}$ 成立时 $Λ \sim Λ (r, n - q, q - s)$ .

4 广义方差分析

回顾 6.3 方差分析, 我们把某个值进行平方和分解. 在这里自然推广为 $Y^{T} Y = \sum_{i = 1}^{k} W_{i}$ . 这里 $W_{i}$ 是相互独立的遵从 Wishart分布的随机矩阵. 根据 Cochran定理在矩阵的推广, 利用 Wilks 统计量 $Λ$ 可以按照分解式进行一些检验.
例如两向分类模型 $y_{i j} = θ_{0} + β_{i} + γ_{j} + ε_{i j}, i = 1, \dots, r; j = 1, \dots, c,$ 其中 $y_{i j}, θ_{0}, β_{i}, γ_{j}, ε_{i j} \in R^{p}$ . 容易得到 $\begin{aligned} Y^{T} Y = & \overset{―}{y} {\overset{―}{y}}^{T} + \sum_{i = 1}^{r} C ({\overset{―}{y}}_{i \cdot} - \overset{―}{y}) ({\overset{―}{y}}_{i \cdot} - \overset{―}{y})^{T} + \sum_{j = 1}^{c} r ({\overset{―}{y}}_{\cdot j} - \overset{―}{y}) ({\overset{―}{y}}_{\cdot j} - \overset{―}{y})^{T} \\ + \sum_{i = 1}^{r} \sum_{j = 1}^{c} (y_{i j} - {\overset{―}{y}}_{i \cdot} - {\overset{―}{y}}_{\cdot j} + \overset{―}{y}) (y_{i j} - {\overset{―}{y}}_{i \cdot} - {\overset{―}{y}}_{\cdot j} + \overset{―}{y})^{T} \\ = & W_{0} + W_{r} + W_{c} + W_{ε}, \end{aligned}$ 其中 $\overset{―}{y} = \frac{1}{r c} \sum_{i = 1}^{r} \sum_{j = 1}^{c} y_{i j}$ , ${\overset{―}{y}}_{i \cdot} = \frac{1}{c} \sum_{j = 1}^{c} y_{i j}$ , ${\overset{―}{y}}_{\cdot j} = \frac{1}{r} \sum_{i = 1}^{r} y_{i j}$ . 想要检验 $\begin{aligned} H_{01} : β_{1} = \dots = β_{r} = 0, \\ H_{02} : γ_{1} = \dots = γ_{c} = 0 . \end{aligned}$
$H_{01}$ 的统计量可以取 $Λ_{1} = \frac{det W_{ε}}{det (W_{ε} + W_{r})}$ ; $H_{02}$ 的可以取 $Λ_{2} = \frac{det W_{ε}}{det (W_{ε} + W_{c})}$ . 零假设成立时它们分别遵从 $Λ$ 分布.

一般地, 广义方差分析总可以从方差分析导出, 这是因为 Wishart 矩阵和 $χ^{2}$ 变量存在内在联系. 如果想分解 $Y^{T} Y = \sum_{i = 1}^{k} Y^{T} P_{μ_{i}} Y$ , 可以考虑 $Y a = X B a + ε a$ . 记 $Z = Y a$ , 有分解 $Z^{T} Z = \sum_{i = 1}^{k} Z^{T} P_{μ_{i}} Z,$ 满足 $R^{n} = μ_{1} \oplus \dots \oplus μ_{k}$ (正交直和).

多元线性回归也会指之前的多自变量模型; 在必要的时候需要指出是多自变量, 还是多因变量(即多指标). ↩︎
要让 $R_{0}$ 概率为 $1$ 地非奇异, 要求 $n - q - 1 \geq p$ . ↩︎ ↩︎