3.1 拟合优度检验

Fisher 用这个例子开创了假设检验的先河. 它的核心思想是承认某个假设成立, 然后考察它发生的偶然性. 当然后人在此基础上进一步完善了数学框架.

假设检验

依据样本来推断一件事正确与否的命题叫做一个**(统计) 假设**; 对该假设判断是/否的程序称为这个假设的检验. 依据结果, 选择接受或者否定/拒绝这个假设.

拟合优度检验

X1,,XnX的独立观察值, F是一个已知的分布函数, 维数与X相同(是我们试图用来拟合X的函数). 利用X1,,Xn来检验假设H:X的分布为F.为了检验这个假设, 设法找到一个量D(X1,,Xn;F)作为衡量X1,,XnF偏离程度的度量. 根据具体样本算出D=D0, 在H成立的前提下计算P(D0)=p(DD0|H)称为在D指标下样本和理论分布的拟合优度, 越高说明拟合越好. 设定一个阈值α(通常很小, 例如0.01,0.05), 在p(D0)<α时否定H, p(D0)α时接受H.

1 两种情况下的拟合优度检验

1.1 理论分布完全已知的情况: Pearson χ2检验

1.1.1 X取值有限的情形

X的取值为有限的a1,,ar, F集中在ai的概率记为pi, 则假设为H:P(X=ai)=pi,1ir.
其中pi>0已知, i=1rpi=1.

νiX1,,Xn中等于ai的个数, νi称为ai观察频数, i=1rνi=n. npi称为ai理论频数, 事实上有E(νi)=npi. Pearson 引入了如下统计量: Pearson χ2统计量(1.1)k=k(X1,,Xn;F)=i=1r(νinpi)2npi,

如果H成立, 则E(νinpi)2=E(νi2)2npiE(νi)+n2pi2=npi(1pi),如果H不成立则这个式子偏大; 再结合调整因子npi就构造出了这个式子.

定理 1.1 (K. Pearson)

H为真, 则样本大小n时, k的分布收敛于χr12, 即自由度为r1χ2分布. 即,(1.2)p(k0)[2r12Γ(r12)]1k0ex2xr32dx.直接从χ2分布表上查找即可.

1.1.2 F是一般分布的情形

试图用离散分布F代替F. 若X是一维的, 寻找适当的<a1<<ar1<, 进行划分I1=(,a1),,Ij=[aj1,aj),,Ir=[ar1,+); 若Xm维的,则要把Rm划分为r个彼此没有公共点的区域I1,,Ir. 记(1.4)pj=PF(XIj)=F(aj)F(aj1),1jr. 其中F(a0)=0,F(ar)=1; 选择a1,,ar1使p1,,pr>0, 记νjX1,,Xn中落在Ij的个数, 进而作出 (1.1). 如果r足够大, ai选的足够好, 则F可以与F很接近.

1.2 理论分布带参数的情况

在很多时候, 检验的假设是X的分布属于一个确定的分布族{F(x,θ1,,θt)|(θ1,,θt)Θ}. 也即假设为H:存在(θ10,,θt0)Θ,使X的分布为F(x,θ10,,θt0).基本方法依然是依据前一个结果进行推广. 在这里自由度会变成r1t.

2 χ2方法的应用

2.1 检验独立性

一个大量样本构成的总体, 每个个体有两个指标A,B. A分为r级: A1,,Ar; B分为s级: B1,,Bs. 从总体中抽出n个个体, 测得第i个的指标(Ari,Bsi). 据此判断A,B是否有关. 引入随机变量X=(X(1),X(2)), 第i个个体的观察结果记为Xi=(Xi(1),Xi(2))=(ri,si). 如果n相对于总数很小, 认为X1,,Xn独立同分布, 问题等价于考察X(1),X(2)是否独立.

(2.1)pij=P(X(1)=i,X(2)=j),(1ir;1js).
由概率论可知, X(1),X(2)独立等价于p1(1),,pr(1),p1(2),,ps(2)>0, 且i=1rpi(1)=i=1spi(2)=1, 使得(2.2)pij=pi(1)pj(2).pi(1),pj(2)视为参数, 则假设H:A,B指标无关, 即X(1),X(2)独立具有我们前面的形式, 也即假定X落在 (2.1), (2.2) 定义的二维分布族中.

X1,,Xn中取值(i,j)的个数为nij. 则{nij}的似然函数为L=i=1rj=1s(pi(1)pj(2))nij.

根据上述推导, 极大值在p^i(1)=nin,p^j(2)=njn上取到. 算出χ2统计量的值(2.3)k=i=1rj=1s(nijnpi(1)pj(2))2npi(1)pj(2)=n(i=1rj=1snij2ninj1).按照 定理1.2,自由度为(rs1)[(r1)+(s1)]=(r1)(s1)(pi(1)中贡献了r1个独立参数, pi(2)中贡献了s1个独立参数). 最后, 指定阈值α, 查表得出χ(r1)(s1)2(α); 当k>χ(r1)(s1)2(α)时, 否定假设H, 也即认为A,B有关.

连续指标下, 采用类似的分割成若干区间的方法处理.

2.2 检验齐一性

r个包含大量个体的同类总体, 每个个体的指标为s个等级的一个, 类似地定义pi(j),ni,nij等. 欲判断H:pi(j)==pr(j),称为齐一性假设.

3 Kolmogorov 检验

这个检验的想法是依据(X1,,Xn)来估计X的分布函数, 判断是否接近给定的分布函数F. 先设X是一维的.

经验分布函数

称定义在<x<上的函数Fn(x)=Fn(x;X1,,Xn)=1ni=1n1Xi<x(X1,,Xn)经验分布函数.