3.1 拟合优度检验

#HypothesisTesting #PearsonChi2Statistic #KolmogorovTest #EmpiricalDistribution #GoodnessofFitTest #TaylorExpansion #LagrangeMethod

一个女士声称可以品出茶是先加奶还是先加茶. 给出

8

杯茶, 其中

4

杯先加奶. 女士全都说对了. 能说明她确实有品鉴能力吗?

引进假设 $H :$ 该女士没有鉴别力. 如果 $H$ 正确, 则女士只是在进行随机挑选, 全部挑对的概率为 $1 / (\binom{8}{4}) = \frac{1}{70},$ 这是小概率的事件, 因此拒绝 $H$ .
如果女士只说对了 $3$ 杯, 发生的概率是 $(\binom{4}{3}) \cdot 4 / (\binom{8}{4}) = \frac{17}{70},$ 这并不稀奇, 因此无法拒绝 $H$ .

Fisher 用这个例子开创了假设检验的先河. 它的核心思想是承认某个假设成立, 然后考察它发生的偶然性. 当然后人在此基础上进一步完善了数学框架.

假设检验

依据样本来推断一件事正确与否的命题叫做一个**(统计) 假设**; 对该假设判断是/否的程序称为这个假设的检验. 依据结果, 选择接受或者否定/拒绝这个假设.

拟合优度检验

设 $X_{1}, \dots, X_{n}$ 是 $X$ 的独立观察值, $F$ 是一个已知的分布函数, 维数与 $X$ 相同(是我们试图用来拟合 $X$ 的函数). 利用 $X_{1}, \dots, X_{n}$ 来检验假设 $H : X 的分布为 F .$ 为了检验这个假设, 设法找到一个量 $D (X_{1}, \dots, X_{n}; F)$ 作为衡量 $X_{1}, \dots, X_{n}$ 与 $F$ 偏离程度的度量. 根据具体样本算出 $D = D_{0}$ , 在 $H$ 成立的前提下计算 $P (D_{0}) = p (D \geq D_{0} | H)$ 称为在 $D$ 指标下样本和理论分布的拟合优度, 越高说明拟合越好. 设定一个阈值 $α$ (通常很小, 例如 $0.01, 0.05$ ), 在 $p (D_{0}) < α$ 时否定 $H$ , $p (D_{0}) \geq α$ 时接受 $H$ .

1 两种情况下的拟合优度检验

1.1 理论分布完全已知的情况: Pearson $χ^{2}$ 检验

1.1.1 $X$ 取值有限的情形

设 $X$ 的取值为有限的 $a_{1}, \dots, a_{r}$ , $F$ 集中在 $a_{i}$ 的概率记为 $p_{i}$ , 则假设为 $H : P (X = a_{i}) = p_{i}, 1 \leq i \leq r .$
其中 $p_{i} > 0$ 已知, $\sum_{i = 1}^{r} p_{i} = 1$ .

以 $ν_{i}$ 记 $X_{1}, \dots, X_{n}$ 中等于 $a_{i}$ 的个数, $ν_{i}$ 称为 $a_{i}$ 的观察频数, $\sum_{i = 1}^{r} ν_{i} = n$ . $n p_{i}$ 称为 $a_{i}$ 的理论频数, 事实上有 $E (ν_{i}) = n p_{i}$ . Pearson 引入了如下统计量: Pearson $χ^{2}$ 统计量 $\begin{matrix} (1.1) & k = k (X_{1}, \dots, X_{n}; F) = \sum_{i = 1}^{r} \frac{(ν_{i} - n p_{i})^{2}}{n p_{i}}, \end{matrix}$

如果 $H$ 成立, 则 $E (ν_{i} - n p_{i})^{2} = E (ν_{i}^{2}) - 2 n p_{i} E (ν_{i}) + n^{2} p_{i}^{2} = n p_{i} (1 - p_{i}),$ 如果 $H$ 不成立则这个式子偏大; 再结合调整因子 $n p_{i}$ 就构造出了这个式子.

定理 1.1 (K. Pearson)

若 $H$ 为真, 则样本大小 $n \to \infty$ 时, $k$ 的分布收敛于 $χ_{r - 1}^{2}$ , 即自由度为 $r - 1$ 的 $χ^{2}$ 分布. 即, $\begin{matrix} (1.2) & p (k_{0}) \approx {[2^{\frac{r - 1}{2}} Γ (\frac{r - 1}{2})]}^{- 1} \int_{k_{0}}^{\infty} e^{- \frac{x}{2}} x^{\frac{r - 3}{2}} d x . \end{matrix}$ 直接从 $χ^{2}$ 分布表上查找即可.

证明

如果 $H$ 成立, 则 $P (ν_{1} = n_{1}, \dots, ν_{r} = n_{r}) = \frac{n!}{n_{1}! \dots n_{r}!} p_{1}^{n_{1}} \dots p_{r}^{n_{r}},$ 从而 $(ν_{1}, \dots, ν_{r})$ 的特征函数为 $g (t_{1}, \dots, t_{r}) = (p_{1} e^{i t_{1}} + \dots + p_{r} e^{i t_{r}})^{n} .$ 令 $Y_{j} = \frac{(ν_{j} - n p_{j})}{\sqrt{n p_{j}}}, 1 \leq j \leq r$ , 则 $k = \sum_{j = 1}^{r} Y_{j}^{2}$ . 而 $(Y_{1}, \dots, Y_{r})$ 有特征函数 $φ (t_{1}, \dots, t_{r}) = \exp (- i \sqrt{n} \sum_{j = 1}^{r} \sqrt{p_{j}} t_{j}) \times g (\frac{t_{1}}{\sqrt{n p_{1}}}, \dots, \frac{t_{r}}{\sqrt{n p_{r}}}),$ 两边取对数, 作 Taylor 展开, 得 $\begin{aligned} \ln φ (t_{1}, \dots, t_{r}) = & n \ln [1 + i \frac{1}{\sqrt{n}} \sum_{j = 1}^{r} \sqrt{p_{j}} t_{j} - \frac{1}{2 n} \sum_{j = 1}^{r} t_{j}^{2} + O (n^{- \frac{3}{2}})] - i \sqrt{n} \sum_{j = 1}^{r} \sqrt{p_{j}} t_{j} \\ = & - \frac{1}{2} \sum_{j = 1}^{r} t_{j}^{2} + \frac{1}{2} {(\sum_{j = 1}^{r} \sqrt{p_{j}} t_{j})}^{2} + O (n^{- \frac{1}{2}}), \end{aligned}$ 故 $\begin{aligned} (1.3) & lim_{n \to \infty} φ (t_{1}, \dots, t_{r}) = & \exp (- \frac{1}{2} Q (t_{1}, \dots, t_{r})), \\ Q (t_{1}, \dots, t_{r}) = & \sum_{j = 1}^{r} t_{j}^{2} - {(\sum_{j = 1}^{r} \sqrt{p_{j}} t_{j})}^{2} . \end{aligned}$
将二次型 $Q (t_{1}, \dots, t_{r})$ 的方阵记为 $A = I_{r} - p p^{T}, p = (\sqrt{p_{1}}, \dots, \sqrt{p_{r}})^{T}$ .
记 $Y = (Y_{1}, \dots, Y_{r})^{T}$ , 作正交变换 $Z = (Z_{1}, \dots, Z_{r})^{T} = B Y,$ 使 $B$ 的第一行为 $p^{T}$ , 则 $Z_{1} = p^{T} = \frac{1}{\sqrt{n}} \sum_{j = 1}^{r} (ν_{j} - n p_{i}) = 0.$ 由变换的正交性, $k = Y_{1}^{2} + \dots + Y_{r}^{2} = Z_{1}^{2} + \dots + Z_{r}^{2} = \sum_{j = 2}^{r} Z_{j}^{2} .$ $Z$ 的特征函数为 $ψ (u) = φ (B^{'} u)$ , 其中 $u = (u_{1}, \dots, u_{r})^{T}$ . 从而由 (1.3), $lim_{n \to \infty} ψ (u) = \exp (- \frac{1}{2} Q (B^{T} u)) .$ 但 $Q (B^{T} u) = (B^{T} u)^{T} I (B^{T} u) - (B^{T} u)^{T} p p^{T} (B^{T} u) = u_{2}^{2} + \dots + u_{r}^{2},$ 因此 $(B^{T} u)^{T} I (B^{T} u) = u^{T} B B^{T} u = u^{T} u$ . 另一方面, $B$ 正交且第一行为 $p^{T}$ , 因此 $p^{T} B^{T}$ 除第一个元为 $1$ 外, 其余都是 $0$ , 从而 $p^{T} (B^{T} u) = u_{1} \Rightarrow (B^{T} u)^{T} p p^{T} (B^{T} u) = u_{1}^{2}$ , 从而回代入 $lim_{n \to \infty} ψ (u)$ 得 $lim_{n \to \infty} ψ (u) = \exp (- \frac{1}{2} (u_{2}^{2} + \dots + u_{r}^{2})) .$ 因此 $n \to \infty$ 时 $(Z_{2}, \dots, Z_{r})$ 趋于一个 $r - 1$ 维的各分量独立同分布于 $N (0, 1)$ 的分布, 故 $k = \sum_{j = 2}^{r} Z_{j}^{2} \to χ_{r - 1}^{2}$ .

一家工厂有早中晚三班, 每班 8 小时. 近期的 15 起事故, 6 起在早班, 3 起在中班, 6 起在晚班, 判断事故是否与班次有关?

提出假设 $H$ : 事故可能性与班次无关, 也即 $F ({i}) = 1 / 3, i = 1, 2, 3$ . 对本例, $n = 15, p_{i} = 1 / 3, ν_{1} = 6, ν_{2} = 3, ν_{3} = 6$ ; 则由 (1.1) 算出 $k_{0} = 1.2$ ; 查自由度为 $3 - 1 = 2$ 的 $χ^{2}$ 分布表, 知 $P (k \geq k_{0}) > \frac{1}{3}$ , 这并不稀奇, 因此并不能认为和班次有关.

1.1.2 $F$ 是一般分布的情形

试图用离散分布 $F^{*}$ 代替 $F$ . 若 $X$ 是一维的, 寻找适当的 $- \infty < a_{1} < \dots < a_{r - 1} < \infty$ , 进行划分 $I_{1} = (- \infty, a_{1}), \dots, I_{j} = [a_{j - 1}, a_{j}), \dots, I_{r} = [a_{r - 1}, + \infty)$ ; 若 $X$ 是 $m$ 维的，则要把 $R^{m}$ 划分为 $r$ 个彼此没有公共点的区域 $I_{1}, \dots, I_{r}$ . 记 $\begin{matrix} (1.4) & p_{j} = P_{F} (X \in I_{j}) = F (a_{j}) - F (a_{j - 1}), 1 \leq j \leq r . \end{matrix}$ 其中 $F (a_{0}) = 0, F (a_{r}) = 1$ ; 选择 $a_{1}, \dots, a_{r - 1}$ 使 $p_{1}, \dots, p_{r} > 0$ , 记 $ν_{j}$ 为 $X_{1}, \dots, X_{n}$ 中落在 $I_{j}$ 的个数, 进而作出 (1.1). 如果 $r$ 足够大, $a_{i}$ 选的足够好, 则 $F^{*}$ 可以与 $F$ 很接近.

1.2 理论分布带参数的情况

在很多时候, 检验的假设是 $X$ 的分布属于一个确定的分布族 ${F (x, θ_{1}, \dots, θ_{t}) | (θ_{1}, \dots, θ_{t}) \in Θ}$ . 也即假设为 $H : 存在 (θ_{10}, \dots, θ_{t 0}) \in Θ, 使 X 的分布为 F (x, θ_{10}, \dots, θ_{t 0}) .$ 基本方法依然是依据前一个结果进行推广. 在这里自由度会变成 $r - 1 - t$ .

定理 1.2

定义 $p_{j} (θ_{1}, \dots, θ_{t}) = F (a_{j}, θ_{1}, \dots, θ_{t}) - F (a_{j - 1}, θ_{1}, θ_{t})$ (类似 (1.4)). 定义 $\begin{aligned} k (θ_{1}, \dots, θ_{t}) = & \sum_{j = 1}^{r} \frac{[ν_{j} - n p_{j} (θ_{1}, \dots, θ_{t})]^{2}}{n p_{j} (θ_{1}, \dots, θ_{t})}, \\ k^{*} = & k ({\hat{θ}}_{1}, \dots, {\hat{θ}}_{t}) . \end{aligned}$ 若满足以下条件

$Θ$ 为 $R^{t}$ 的开集, $\exists (θ_{10}, \dots, θ_{t 0}) \in Θ$ , 使得 $X$ 的分布为 $F (x, θ_{10}, \dots, θ_{t 0})$ ;
对任意不同的 $(θ_{11}, \dots, θ_{t 1}), (θ_{12}, \dots, θ_{t 2}) \in Θ$ , 有 $\sum_{j = 1}^{r} | p_{j} (θ_{11}, \dots, θ_{t 1}) - p_{j} (θ_{12}, \dots, θ_{t 2}) | > 0;$
$\frac{\partial p_{j} (θ_{1}, \dots, θ_{t})}{\partial θ_{i}} (i = 1, \dots, t; j = 1, \dots, r)$ 在 $Θ$ 内连续;
令 $I_{r s} (θ_{1}, \dots, θ_{t}) = \sum_{i = 1}^{r} \frac{1}{p_{i} (θ_{1}, \dots, θ_{t})} \frac{\partial p_{i} (θ_{1}, \dots, θ_{t})}{\partial θ_{r}} \frac{\partial p_{i} (θ_{1}, \dots, θ_{t})}{\partial θ_{s}} (r, s = 1, \dots, t),$ $I (θ_{1}, \dots, θ_{t}) = (I_{r s})$ 为 $t$ 阶方阵; $| I | \neq 0, \forall (θ_{1}, \dots, θ_{t}) \in Θ$ ;
方程组 $\sum_{j = 0}^{r} \frac{ν_{j}}{p_{j}} \frac{\partial p_{j}}{\partial θ_{i}} = 0 (i = 1, \dots, t)$ 的解 $({\hat{θ}}_{1}, \dots, {\hat{θ}}_{t})$ 是 $(θ_{1}, \dots, θ_{t})$ 的弱相合估计.

则 $n \to \infty$ 时, $k^{*}$ 依分布收敛于 $χ_{r - 1 - t}^{2}$ .

2 $χ^{2}$ 方法的应用

2.1 检验独立性

一个大量样本构成的总体, 每个个体有两个指标 $A, B$ . $A$ 分为 $r$ 级: $A_{1}, \dots, A_{r}$ ; $B$ 分为 $s$ 级: $B_{1}, \dots, B_{s}$ . 从总体中抽出 $n$ 个个体, 测得第 $i$ 个的指标 $(A_{r_{i}}, B_{s_{i}})$ . 据此判断 $A, B$ 是否有关. 引入随机变量 $X = (X^{(1)}, X^{(2)})$ , 第 $i$ 个个体的观察结果记为 $X_{i} = (X_{i}^{(1)}, X_{i}^{(2)}) = (r_{i}, s_{i})$ . 如果 $n$ 相对于总数很小, 认为 $X_{1}, \dots, X_{n}$ 独立同分布, 问题等价于考察 $X^{(1)}, X^{(2)}$ 是否独立.

记 $\begin{matrix} (2.1) & p_{i j} = P (X^{(1)} = i, X^{(2)} = j), (1 \leq i \leq r; 1 \leq j \leq s) . \end{matrix}$
由概率论可知, $X^{(1)}, X^{(2)}$ 独立等价于 $\exists p_{1}^{(1)}, \dots, p_{r}^{(1)}, p_{1}^{(2)}, \dots, p_{s}^{(2)} > 0$ , 且 $\sum_{i = 1}^{r} p_{i}^{(1)} = \sum_{i = 1}^{s} p_{i}^{(2)} = 1$ , 使得 $\begin{matrix} (2.2) & p_{i j} = p_{i}^{(1)} p_{j}^{(2)} . \end{matrix}$ 将 $p_{i}^{(1)}, p_{j}^{(2)}$ 视为参数, 则假设 $H : A, B 指标无关, 即 X^{(1)}, X^{(2)} 独立$ 具有我们前面的形式, 也即假定 $X$ 落在 (2.1), (2.2) 定义的二维分布族中.

记 $X_{1}, \dots, X_{n}$ 中取值 $(i, j)$ 的个数为 $n_{i j}$ . 则 ${n_{i j}}$ 的似然函数为 $L = \prod_{i = 1}^{r} \prod_{j = 1}^{s} (p_{i}^{(1)} p_{j}^{(2)})^{n_{i j}} .$

推导

取对数似然函数 $\log L = \sum_{i = 1}^{r} \sum_{j = 1}^{s} n_{i j} (\ln p_{i}^{(1)} + \ln p_{j}^{(2)}) .$ 在约束条件 $\sum_{i = 1}^{r} p_{i}^{(1)} = \sum_{i = 1}^{s} p_{i}^{(2)} = 1$ 下构造 Lagrange 函数 $f (p_{1}^{(1)}, \dots, p_{r}^{(1)}, p_{1}^{(2)}, \dots, p_{s}^{(2)}; λ_{1}, λ_{2}) = \log L - λ_{1} (\sum_{i = 1}^{r} p_{i}^{(1)} - 1) - λ_{2} (\sum_{i = 1}^{s} p_{i}^{(2)} - 1) .$
求偏导得 $\begin{array}{r} {\begin{aligned} \frac{\partial f}{\partial p_{i}^{(1)}} = \frac{1}{p_{i}^{(1)}} \sum_{j = 1}^{s} n_{i j} - λ_{1} = 0, \\ \frac{\partial f}{\partial p_{i}^{(2)}} = \frac{1}{p_{j}^{(2)}} \sum_{i = 1}^{r} n_{i j} - λ_{2} = 0 \end{aligned} \Rightarrow {\begin{aligned} {\hat{p}}_{i}^{(1)} = \frac{1}{n} \sum_{j = 1}^{s} n_{i j}, \\ {\hat{p}}_{j}^{(2)} = \frac{1}{n} \sum_{i = 1}^{r} n_{i j} . \end{aligned} \end{array}$

根据上述推导, 极大值在 ${\hat{p}}_{i}^{(1)} = \frac{n_{i \cdot}}{n}, {\hat{p}}_{j}^{(2)} = \frac{n_{\cdot j}}{n}$ 上取到. 算出 $χ^{2}$ 统计量的值 $\begin{matrix} (2.3) & k^{*} = \sum_{i = 1}^{r} \sum_{j = 1}^{s} \frac{(n_{i j} - n p_{i}^{(1)} p_{j}^{(2)})^{2}}{n p_{i}^{(1)} p_{j}^{(2)}} = n (\sum_{i = 1}^{r} \sum_{j = 1}^{s} \frac{n_{i j}^{2}}{n_{i \cdot} n_{\cdot j}} - 1) . \end{matrix}$ 按照定理1.2，自由度为 $(r s - 1) - [(r - 1) + (s - 1)] = (r - 1) (s - 1)$ ( $p_{i}^{(1)}$ 中贡献了 $r - 1$ 个独立参数, $p_{i}^{(2)}$ 中贡献了 $s - 1$ 个独立参数). 最后, 指定阈值 $α$ , 查表得出 $χ_{(r - 1) (s - 1)}^{2} (α)$ ; 当 $k^{*} > χ_{(r - 1) (s - 1)}^{2} (α)$ 时, 否定假设 $H$ , 也即认为 $A, B$ 有关.

连续指标下, 采用类似的分割成若干区间的方法处理.

2.2 检验齐一性

有 $r$ 个包含大量个体的同类总体, 每个个体的指标为 $s$ 个等级的一个, 类似地定义 $p_{i} (j), n_{i \cdot}, n_{i j}$ 等. 欲判断 $H : p_{i} (j) = \dots = p_{r} (j),$ 称为齐一性假设.

3 Kolmogorov 检验

这个检验的想法是依据 $(X_{1}, \dots, X_{n})$ 来估计 $X$ 的分布函数, 判断是否接近给定的分布函数 $F$ . 先设 $X$ 是一维的.

经验分布函数

称定义在 $- \infty < x < \infty$ 上的函数 $F_{n} (x) = F_{n} (x; X_{1}, \dots, X_{n}) = \frac{1}{n} \sum_{i = 1}^{n} 1_{X_{i} < x}$ 为 $(X_{1}, \dots, X_{n})$ 的经验分布函数.