6.3 方差分析

1 基本概念

回顾 前面的定义, 方差分析是因子全都是属性因子的情况.

对于因子试验模型, 首先我们要确定各个水平效应是否相同; 如果相同, 说明这个因子其实没啥用, 它是不显著的; 反之则是显著的.
Fisher 由此引入了方差分析. 设在 n 个试验点上做实验, 得到观察值向量 y=(y1,,yn)T, 满足线性模型 y=Xβ+ε. 称 ||y||2=yTy=i=1nyi2总平方和. 如果 ||y||2 可以分解为 ||y||=j=1rξj, 而这些 ξj 又有明确的统计解释, 则把这个分解称为方差分析.
实际中常常分解 ||P1y||2=i=1n(yiy)2. 由于 ||P1y||2=||y||2ny2, 所以实际上就是分解 ||y||2. Cochran定理 提供了理论支持.
这实际上是种狭义方差分析. 下面假设模型都满足 εNn(0,σ2In).

2 单向分类模型

按因子的 r 个水平将观察值分成 r 个组, 记为 y=(y11,,y1n1,,yr1,,yrnr)=(y(1)T,,y(r)T)T.
其中 y(i) 是试验组取第 i 个水平得到的观察值向量, ni 是重复试验的次数. 因此也称一种方式分组数据模型. 具体结构为 yiki=β0+βi+εiki,i=1,,r,ki=1,,ni,i=1rni=n.
按照方差分析的思想, 定义 y 的总的离差平方和SST=i=1rki=1ni(yikiy)2 进行分解. y 表示 y 分量的总平均; yi 表示将观察值按照"·"的角标求和, 然后除以角标的取值个数: yi=1niki=1niyiki. 则SST=i=1rki=1ni(yikiyi+yiy)2=i=1rki=1ni(yikiyi)2+i=1rki=1ni(yiy)2, 这里最后一个等号是因为 i=1rki=1ni(yikiyi)(yiy)=i=1r[(yiy)ki=1ni(yikiyi)]=0.
SSε=i=1rki=1ni(yikiyi)2,SSr=i=1rki=1ni(yiy)2=i=1rni(yiy)2,SST=SSε+SSr.

注意到 SST=||P1ny||2. 由 引理, SSTσ2χn1,δ2. 类似地 ki=1ni(yikiyi)2=||P1niy||2σ2||P1niy||2χni12. 且由 ||P1niy||2 的独立性, σ2SSεχnr2. 这样 σ2SSrχr1,δ2, δ2=||P1nEy||2σ2. 而 Cochran 定理还指出 SSεSSr, 从而 FSSrSSεnrr1Fr1,nr,δ.
如果 β1==βr, yi,yj 甚至 y 都理应没有显著差异; 否则, 若 βiβj, 则 (yiy)2,(yjy)2 都会明显增加, SSr 会偏大. 因此假设 H0:β1==βr 的拒绝域为 {FFr1,nr(α)}. [1]

这样我们可以总结为

平方和来源 平方和 自由度 平均平方和 F
类间 SSr=i=1rni(yiy)2 r1 SSrr1 ⬇️
误差 SSε=i=1rki=1ni(yikiyi)2 nr SSεnr F=SSrSSεnrr1
总计 SST=i=1rki=1ni(yikiy)2 n1 -- ⬆️

3 两向分类模型

这就是 这个例子 中的情况. 即可按照第一个因子的不同水平分类, 也可按照第二个. 可以将数据设想成 (y11y12y13y21y22y23). 一般地, yij=θ0+βi+γj+εij,i=1,,r,j=1,,c.yij(i,j) 格中. 每格也可以重复试验. 如果重复试验次数每格相等, 则是均衡的.

3.1 每格只进行一次试验

此时检验 H01:β1==βr 或者 H02:γ1==γc.

平方和来源 平方和 自由度 平均平方和 F
行因子 SSr=ci=1r(yiy)2 r1 SSrr1 F1=SSrSSε(c1)
列因子 SSc=rj=1c(yjy)2 c1 SScc1 F2=SScSSε(r1)
误差 SSε=SSTSSrSSc (r1)(c1) SSε(r1)(c1)
总计 SST=i=1rj=1c(yijy)2 rc1 --

3.2 每格有 p 次试验

现在假设两因子试验有交互作用 yijk=θ0+βi+γj+(βγ)ij+εijk, i=1,,r, j=1,,c, k=1,,p. (βγ)ij 表示行因子的第 i 个水平和列因子的第 j 个水平点交互效应. 这里除了 H01,H02 外, 还需要检验 H03:(βγ)ij(i,j)均相同.
如果 H03 被接受, 则交互作用不显著; 否则需要推断哪种水平搭配最佳.

类似前面, H01,H02 的统计量分别是 F1=SSrSSεrc(p1)r1,F2=SScSSεrc(p1)c1, 拒绝域分别是 {F1Fr1,rc(p1)(α)}, {F2Fc1,rc(p1)(α)}.
而对 H03, 如果它成立(交互作用不显著), SSg 应该要小, 随之 SSrc 要小. #? 从而 H03: F3=SSrcSSεrc(p1)(r1)(c1)F(r1)(c1),rc(p1),δ3. 这里 δ32=1σ2i=1rj=1cp(EyijEyiEyj+Ey)2.H03 成立, δ32=0, 所以拒绝域为 {F3F(r1)(c1),rc(p1)(α)}.

平方和来源 平方和 自由度 均方 F
行因子 SSr=cpi=1r(yiy)2 r1 SSrr1 F1=SSrSSεrc(p1)r1
列因子 SSc=cpj=1c(yjy)2 c1 SScc1 F2=SScSSεrc(p1)c1
交互作用 SSrc=SSgSSrSSc (r1)(c1) SSrc(r1)(c1) F3=SSrcSSεrc(p1)(r1)(c1)
格间 SSg=pi=1rj=1c(yijy)2 rc1
误差 SSε=SSTSSg rc(p1) SSεrc(p1)
总计 SST=i=1rj=1ck=1p(yijky)2 rcp1

3.3 非均衡情形

此时各格试验不全相等.
模型依然是 yijk=θ0+βi+γj+(βγ)ij+εijk, 这里 i=1,,r, j=1,,c, 但是 k=k(i,j)=1,,nij.
此时前面的方差分析法没法直接搬用. 需要用附加约束法 #? 给出. 附加以下约束: i=1rniβi=0,j=1cnjγj=0,(3.3)i=1rni(βγ)ij=j=1cnj(βγ)ij=0, 这里 ni=j=1cnij, nj=i=1rnij.
现在假设 H01,H02,H03 都已经由前面给出: H01:β1==βr=0,H02:γ1==γc=0,H03:(βγ)11==(βγ)rc=0.

本节的方法可以推广到多因子分析情形, 没有原则性困难, 但是复杂程度会显著增加.


  1. 这个和 6.2 回归分析 中的假设检验完全一致. 不过这里设计矩阵是 01 矩阵, 计算简单很多. ↩︎