7.3 多元线性模型

我们在 6.1 线性模型的概念和分类 开始讨论了一个因变量的线性模型. 现在推广到多个因变量.

1 多元线性模型

设计矩阵和之前相同: X=(x11x1qxn1xnq). 而这里 n 个观察值 y1,,ynRp, 记为 Y=(y11y1pyn1ynp). 误差矩阵 ε=(ε11ε1pεn1εnp). 未知参数矩阵 B=(β11β1pβq1βqp). βj (第 j 列) 影响实验结果的第 j 个指标.
Y 的第 j 列为 Yj, 则 Yj=Xβj+εj,j=1,,p.
看起来多元线性模型就是 p 个一元线性模型的混合, 但是不同之处是我们要考虑 p 个指标之间存在相关关系.
设观察值矩阵 Y 的各行互不相关, 有相同的协方差阵 Σ: Cov(yα,yβ)=δαβΣ.
因此我们修改记法为

一般多元线性模型

以下模型称为一般多元线性模型 [1]:

(1.1)Y=XB+ε,

且附加假定 Eε=0, ε各行不相关, 有共同协方差阵 Σ>0.

它就是一元线性模型的推广, 把 β,σ2>0 推广为 B,Σ>0.

2 参数估计及其分布

大多数情形下考虑列满秩情形: rankX=q.
下面讨论 B 的估计. 设估计为 B^, 则残差为 ε^=YXB^. 可以定义残差阵 ε^Tε^. 我们希望好的 B^ 满足: (YXB)T(YXB)(YXB^)T(YXB^)0 (也即非负定), 或记为 (YXB)T(YXB)(YXB^)T(YXB^),B.

这是一个很强的结果. 当 CD0, 它们由大到小的特征值 λi(C),λi(D) 满足 λi(C)λi(D), i=1,,rankD. 因此 i=1rλi(C)i=1rλi(D), trCtrD 等性质成立.

定理 2.1

模型 (1.1) 满足正规方程 (2.1)XTXB=XTY.
B^, 残积阵为 R0=YTPXY.

类似 Gauss-Markov定理:

定理 2.2

参数 tr(CTB) 的一切线性无偏估计中, tr(CTB^) 是 BLUE, 这里 B^=(XTX)1XTYB 的最小二乘估计.

2.1 正态性假设下的讨论

采用 (2.1) 的记号, 设 εNnp(0,I,Σ), 接下来讨论这样的正态模型.

定理 2.3

B^B 的最小二乘估计, R0=YTPXY 是残积阵, Σ^=1nR0, 则 (B^,Σ^)(B,Σ) 的极大似然估计.

这个定理 类似, 可以证明 (B^,R0nq)(B,Σ) 的 UMVUE, 方法完全类似. 在没有正态性的假设下, 依然有 R0nqΣ 的无偏估计.
事实上, 因为 PXnq 秩的正投影阵, 必然存在正交 U: UTPXU=(Inq000), 于是 R0=YTUUTPXUUTY=YTU(Inq000)UTY.
注意到 Z=UTYNnp(0,I,Σ), 记 ZT=(Z1,,Zn), 有 R0=α=1nqZαZαT, 因此 ER0=α=1nqE[ZαZαT]=(nq)Σ.

定理 2.4 B^R0 的分布

假设 (1.1) 是正态模型. 则

  1. B^Nqp(B,(XTX)1,Σ).
  2. R0Wp(nq,Σ).
  3. B^R0.

2.2 多元情形的推广

设因变量 Y1,,YpX1,,Xq 的统计依赖表现为: 给定 X1,,Xq, 有 (2.2)(Y1,,Yp)=(1,X1,,Xq)B+(ε1,,εp), 其中 B=(β01β0pβ11β1pβq1βqp). 称 βij 是自变量 Xi 对因变量 Yj效应. (2.2) 称为总体回归模型.
根据 性质5, 当 (Y1,,Yp,X1,,Xq)=ZNp+q(v,V) 时, 记 v=(EYEX),V=(ΣYYΣYXΣXYΣXX),V>0,X1,,Xq 给定时, Y|XNp(EY+ΣYXΣXX1(XEX),ΣYYΣYXΣXX1ΣXY), 这里 Y=(Y1,,Yp)T. 可见总体回归函数是 (2.3)EY+ΣYXΣXX1(XEX). 不难看出, 以回归方程 Y^=EY+ΣYXΣXX1(XEX)Y 的预测, 预测误差的协方差阵是 ΣYYΣYXΣXX1ΣXY. 这些都是一元情形的自然推广.

类似地, 由最小二乘估计得回归系数的估计B^=[(1X)T(1X)]1(1X)TY=(n1TXXT1XTX)1(1X)TY=(1n+1TXn(XTP1X)1XT1n1TXn(XTP1X)1(XTP1X)1XT1n(XTP1X)1)(1TYXTY)=(1TYn1TXn(XTP1X)1(XTP1Y)(XTP1X)1(XTP1Y)).
这和总体回归情形用样本矩代替总体矩得到的结果完全一致, 和一元情形也相仿.

3 线性假设检验

3.1 检验参数矩阵

先讨论 (2.2) 的假设检验. 此时假设为 H0:B1=(β11β1pβq1βqp)=0.
对正态模型, 令似然比 λ=max{L(Y,B,Σ)|B,Σ>0}max{L(Y,β0,Σ)|β0,Σ>0}MMH. 其中 β0B 的第一个行向量. 由 定理2.3, M=C[det(R0n)]n2exp{n2}.
H0 成立时 L(Y,β0,Σ)=C(detΣ)n2exp{12tr(Σ1α=1n(yαβ0)(yαβ0)T)}.
注意到α=1n(yαβ0)(yαβ0)T=α=1n(yαy)(yαy)T+n(yβ0)(yβ0)T=YTP1Y+n(yβ0)(yβ0)T,MH=C[det(YTP1Yn)]n2exp{n2}.
YTP1Y=R1. 有 λ=(detR0detR1)n2. 它是 Λ=detR0detR1 的严格下降函数, 因此拒绝域为 {ΛCα}. 由于 R0Wp(nq1,Σ),[2]H0 成立时, R1Wp(n1,Σ), 得 R1R0R0, 且 R1R0Wp(q,Σ). 故 ΛΛ(p,nq1,q).

3.2 检验单一效应

H0 被拒绝, 接受回归模型 (2.2). 类似一元情形, 检验 Xi 效应的显著性: H0i=βi1==βip=0,i=1,,q. 类似上面, 用似然比检验, 容易验证, H0i 成立时, R1i=YTPμiY, 这里 μi(1X) 划去 X 的第 i 列后长成的线性空间, 于是有 R1iWp(nq,Σ,Δ). 当假设成立时, 有 R1iWp(nq,Σ), R1iR0Wp(1,Σ). 于是有 Λ=detR0detR1iΛ(p,nq1,1).F=1ΛΛnqpp, 当 H0i 成立时 1ΛΛnqppFp,npq, 故得拒绝域 {Λ11+pnpqFp,npq,α}.[2:1]

3.3 变量的选择

在多元情形, 就算自变量 Xi 对整个因变量集的效应是显著的, 也不见得它对单个因变量都是显著的. 从而我们可以检验 B 的列向量是否为 0. 另外就算自变量对整个 Y 不显著, 对单个因变量也可能显著. 所以问题变得很复杂.

在这里我们讨论一般线性假设 H0:HBG=0.
这里 HRk×q, GRp×r, 且 rankH=k, rankG=r.

先讨论一般线性假设 H0:HB=0. 此约束下的 B^H, 相当于在约束 Hβj=0 下的最小二乘估计, 故有 XB^H=PXQY, 这里 Qq 阶方针: Im(Q)=Ker(H). 实际上可取 Q=IHT(HHT)1HPHT, 它是到 Im(HT) 的正交补空间的投影阵. 记 B^H 的残积阵为 RH, 则 RH=YTP(XQ)Y, 从而仿照前面, 似然比 λ=MMHΛ=detR0detRH 的严格下降函数. 因此 HB=0 的拒绝域为 {ΛCα}. 根据 (2.4), 知 rankP(XQ)=n[rank((XTHT))rankHT]ns, 因此 H0 成立时 ΛΛ(p,nq,qs). 只有在特殊情况下才等价于 F 检验.

回到 H0:HBG=0. 令 Z=YG,Θ=BG, 则模型变为 Z=XΘ+εG,εGNnr(0,I,GTΣG). 假设变为 H~0:HΘ=0. 从而类似上面, 检验统计量为 Λ=det(ZTPXZ)det(ZTP(XQ)Z)=det(GTYTPXYG)det(GTYTP(XQ)YG).H0 成立时 ΛΛ(r,nq,qs).

4 广义方差分析

回顾 6.3 方差分析, 我们把某个值进行平方和分解. 在这里自然推广为 YTY=i=1kWi. 这里 Wi 是相互独立的遵从 Wishart分布 的随机矩阵. 根据 Cochran定理在矩阵的推广, 利用 Wilks 统计量 Λ 可以按照分解式进行一些检验.
例如两向分类模型 yij=θ0+βi+γj+εij,i=1,,r;j=1,,c, 其中 yij,θ0,βi,γj,εijRp. 容易得到YTY=yyT+i=1rC(yiy)(yiy)T+j=1cr(yjy)(yjy)T+i=1rj=1c(yijyiyj+y)(yijyiyj+y)T=W0+Wr+Wc+Wε, 其中 y=1rci=1rj=1cyij, yi=1cj=1cyij, yj=1ri=1ryij. 想要检验H01:β1==βr=0,H02:γ1==γc=0.
H01 的统计量可以取 Λ1=detWεdet(Wε+Wr); H02 的可以取 Λ2=detWεdet(Wε+Wc). 零假设成立时它们分别遵从 Λ 分布.

一般地, 广义方差分析总可以从方差分析导出, 这是因为 Wishart 矩阵和 χ2 变量存在内在联系. 如果想分解 YTY=i=1kYTPμiY, 可以考虑 Ya=XBa+εa. 记 Z=Ya, 有分解 ZTZ=i=1kZTPμiZ, 满足 Rn=μ1μk (正交直和).


  1. 多元线性回归也会指之前的多自变量模型; 在必要的时候需要指出是多自变量, 还是多因变量(即多指标). ↩︎

  2. 要让 R0 概率为 1 地非奇异, 要求 nq1p. ↩︎ ↩︎