5.2 统计判决理论

#RiskFunction #MSE #Minimax #CramerRao #UnbiasedEstimation

Wald 的统计判决理论通过把统计问题转换成数学最优化问题的解, 引入了各种优良性准则; 它引入了"行动"的概念, 并承担后果(损失函数), 使得数理统计可以以更大的经济利益等为发展目标.

1 三要素

对于某一个决策问题, 首先要得到观测数据 $X$ , 它有概率分布 $F_{θ} (x)$ , $θ \in Θ$ . 一旦知道了 $θ$ , 就应该采取明确的决定. 这样, 第一个要素就是样本和概率分布族 $X, {F_{θ} | θ \in Θ}$ .
其次, 需要明确决定有哪些. 例如如果最大生产能力为 $a$ , 则决定为 $d \in [0, a]$ . 这里 $d$ 是一个行动, $[0, a]$ 是行动空间, 记为 $D$ . 再或者做与不做, $D = {0, 1}$ . 行动空间就是第二个要素.
最后需要明确行动的后果, 例如损失的钱数, 记为 $L (d, θ)$ . 损失函数是第三个要素.

例子

某商店每天进货 $N$ 件商品, 抽取 $n$ 件检验, $X$ 为其中的废品数, 用来决定是否接受这批商品. 如果接受 (行动 $d_{1}$ ), 则每件废品损失 $10$ 元; 若拒绝 ( $d_{2}$ ), 则当日无货出售, 每件损失利润 $2$ 元.
可以认为 $X \sim Binomial (n, p)$ , $Θ = [0, 1]$ , $D = {d_{1}, d_{2}}$ . 设废品率 $p$ , 则该批商品有废品 $N p$ , 从而损失函数为 $L (d_{i}, p) = {\begin{aligned} 10 N p, i = 1, \\ 2 N (1 - p), i = 2. \end{aligned}$

在这里我们没有纳入 $θ$ 的先验分布, 因此统计判决问题也可以是频率学派的研究内容. 加入 $θ$ 先验分布的情况会在 Bayes 判决问题中介绍.

2 判决函数风险函数

给定 $X \in X$ , ${F_{θ} | θ \in Θ}$ , $D$ , $L (d, θ)$ . 现在要根据样本值 $x$ 确定行动 $d$ . 也即我们需要一个函数 $X \to D$ , 把它称为判决/决策函数.
在刚刚的例子里, 判决函数可以是 $δ (X) = {\begin{aligned} d_{1}, \frac{X}{n} \leq \frac{1}{6}, \\ d_{2}, \frac{X}{n} > \frac{1}{6} . \end{aligned}$
此时的损失函数为 $L (δ (x), θ)$ . 平均损失为 $R (δ, θ) = E [L (δ (X), θ)] = \int_{F} L (δ (x), θ) d F_{θ} (x),$ 称为 $δ$ 的风险函数.
对上面的例子, 风险函数为 $R (δ, p) = 10 N p \sum_{i = 0}^{[\frac{n}{6}]} (\binom{n}{i}) p^{i} (1 - p)^{n - i} + 2 N (1 - p) \sum_{i = [\frac{n}{6}] + 1}^{n} (\binom{n}{i}) p^{i} (1 - p)^{n - i} .$
根据 Wald 的理论, 判决函数的评估方法就是风险函数. 如果存在一个判决函数 $δ^{*}$ , 使得任何 $δ$ , 都有 $R (δ^{*}, θ) \leq R (δ, θ), \forall θ \in Θ,$ 则 $δ^{*}$ 称为判决问题的一致最优解.

3 统计推断与统计判决

统计推断的目的是追求真理: 比如弄清参数究竟是不是 $\geq 0$ . 它只管对错, 不论后果. 而统计判决考虑后果, 会考虑行动 $d$ 的损失大小. 例如多生产零件会积压库存, 少生产零件只是营收减少, 此时无偏估计反而会产生偏差.

不过统计推断方法仍然可以用统计判决理论来解释, 例如

无偏估计中我们希望方差越小越好, 其实就是平方损失函数.
假设检验, 之前说的控制 $α$ 来最大化 $1 - β$ , 在判决语言中就是 $0 - 1$ 损失.
区间估计: 把 $θ$ 不在区间里看作 $1$ 损失 ( $L_{1}$ , 准确性损失), 把区间长度 $b - a$ 也看作损失( $L_{2}$ , 精确度损失). 控制 $L_{1}$ 下最小化 $L_{2}$ .

4 Bayes 准则

在 Bayes 的观点下^[1], $θ$ 有先验分布 $H (θ)$ . 因此可以对 $R (δ, θ)$ 再求一次平均: $R_{H} (δ) = E_{θ} [R (δ, θ)] = \int_{Θ} R (δ, θ) d H (θ),$ 这里 $R (δ)$ 称为 $δ$ 在 $H$ 之下的Bayes 风险.

Bayes 解/Bayes 判决函数

如果判决函数 $δ^{*}$ 使得 $\forall δ$ , $R_{H} (δ^{*}) \leq R_{H} (δ)$ , 则 $δ^{*}$ 称为一个 Bayes 解/Bayes 判别函数.

后验风险

称 $R (d | x) = \int_{Θ} L (d, θ) H (d θ | x)$ 为 $d$ 在得到 $x$ 后的后验风险.

下面的定理告诉我们 Bayes 判决函数的找法.

后验风险最小原则

$\forall x$ , 如果 $\exists d_{x}$ 使后验风险达到最小, 即 $R (d_{x} | x) = min_{d \in D} R (d | x)$ , 则 $δ_{H} (x) = d_{x}$ ( $x \in X$ ) 是一个 Bayes 判决函数.

证明

考虑任意判决函数 $δ$ . 根据定义, Bayes 风险为 $R_{H} (δ) = E_{(X, θ)} [L (δ (X), θ)]$ . 把它分成两步计算. 第一步是条件期望 $\int_{Θ} L (δ (x), θ) H (d θ | x) = R (δ (x) | x) .$ 第二步是对 $x$ 求期望. 记 $X$ 的边缘分布为 $Q$ , 则 $R_{H} (δ) = \int_{F} R (δ (x) | x) d Q (x) .$ 根据条件, $\forall x \in X$ , 有 $R (δ_{H} (x) | x) = min_{d \in D} R (d | x) \leq R (δ (x) | x) .$ 于是 $R_{h} (δ_{H}) = \int_{F} R (δ_{H} (x) | x) d Q (x) \leq \int_{F} R (δ (x) | x) d Q (x) = R_{H} (δ) .$

损失函数为平方损失:

L (d, θ) = (θ - d)^{2}

, Bayes 判决函数就是期望.

记 $m (x), σ^{2} (x)$ 为 $H (θ | x)$ 的均值、方差, 则 $R (d | x) = [d - m (x)]^{2} + σ^{2} (x) .$ 因此 Bayes 判决函数为 $δ_{H} (x) = m (x)$ , Bayes 风险为 $R_{H} (δ_{H}) = \int_{F} σ^{2} (x) d Q (x) .$

θ \in {θ_{1}, θ_{2}}

f (x, θ)

. 考虑

H_{0} : θ = θ_{1} \leftrightarrow H_{1} : θ = θ_{2}

. 定义损失函数

L (d_{1}, θ_{1}) = L (d_{2}, θ_{2}) = 0

L (d_{1}, θ_{2}) = a, L (d_{2}, θ_{1}) = b

, 这里

d_{1}

接受

H_{0}

d_{2}

拒绝

H_{0}

. 先验分布

H (θ_{1}) = p

H (θ_{2}) = 1 - p

则得到样本 $x$ 后, 后验分布为 $\begin{aligned} H (θ_{1} | x) & = \frac{p f (x, θ_{1})}{p f (x, θ_{1}) + (1 - p) f (x, θ_{2})}, \\ H (θ_{2} | x) & = \frac{(1 - p) f (x, θ_{2})}{p f (x, θ_{1}) + (1 - p) f (x, θ_{2})} . \end{aligned}$ 于是行动的后验风险分别为 $\begin{aligned} R (d_{1} | x) & = \frac{a (1 - p) f (x, θ_{2})}{p f (x, θ_{1}) + (1 - p) f (x, θ_{2})}, \\ R (d_{2} | x) & = \frac{b p f (x, θ_{1})}{p f (x, θ_{1}) + (1 - p) f (x, θ_{2})} . \end{aligned}$
根据后验风险最小原则, Bayes 解为 $δ_{H} (x) = {\begin{aligned} d_{1}, \frac{f (x, θ_{2})}{f (x, θ_{1})} \leq \frac{b p}{a (1 - p)}, \\ d_{2}, \frac{f (x, θ_{2})}{f (x, θ_{1})} > \frac{b p}{a (1 - p)} . \end{aligned}$ 这个解和 NP基本引理提供的 UMP 检验符合, 不同的是 NP 中临界值由 $α$ 确定, 而这里则取决于 $a, b, p$ . $a, b$ 的取值正好对应了 $α$ 的作用, 差异反映了两类错误后果的不同.

如果所有 $δ$ 都有 $R_{H} (δ) = \infty$ , 则任何 $δ$ 都是 Bayes 判决函数, 但此时后验风险最小的解仍然可能唯一, 把它称为推广意义下的 Bayes 判决函数.

X_{1}, \dots, X_{n} \sim N (θ, 1)

, 平方损失, 先验分布为

h (θ) \equiv 1

根据这个结果, $θ$ 的"后验分布"^[2]为 $N (\overset{―}{x}, \frac{1}{n})$ . 从而 Bayes 解为均值 $δ_{H} (x) = \overset{―}{X}$ . 它的风险函数为 $E_{θ} (\overset{―}{X} - θ)^{2} = \frac{1}{n}$ , 从而 Bayes 风险为 $R_{H} (δ_{H}) = \int_{- \infty}^{\infty} \frac{1}{n} d θ = \infty .$ 从而 $\forall δ$ , $R_{H} (δ) = \infty$ .

在这个例子里, Bayes 准则没有意义, 但确实能得到唯一解, 它也确实有优点.

5 Minimax 准则

考虑 $δ$ 下的可能最大风险 $M (δ) = max_{θ \in Θ} R (δ, θ) .$ 让最坏情况尽可能小的准则被称为 Minimax 准则 (或者极小化极大准则).

Minimax 解

$δ^{*}$ 是一个统计判决问题的 Minimax 解/判决函数, 如果 $\forall δ$ : $M (δ) \geq M (δ^{*})$ . ^[3]

Pasted image 20251231182006.png|400
从这张图看出, Minimax 是一个保守的估计. $M (δ_{1}) < M (δ_{2})$ , 所以 $δ_{1}$ 在 Minimax 意义下是个更好的估计. 不过如果大多数情况下 $θ$ 不在 $(a, b)$ 上, $δ_{2}$ 总是更好. 所以 Minimax 只作为先验估计不足时候对保险选择.

Minimax 也不是很好求. 目前得到的 Minimax 解主要通过下面两个定理求得, 它们的主要作用是验证某个解是 Minimax 解.

定理 5.1

设 $δ^{*}$ 为某个先验分布 $H$ 的 Bayes 解, 且 $δ^{*}$ 的风险函数 $R (δ^{*}, θ) \equiv c, \forall θ \in Θ_{H}$ . 则 $δ^{*}$ 是一个 Minimax 解.

证明

如果 $δ^{*}$ 不是的话, $\exists δ : M (δ) = c^{'} < c$ , 则 $R_{H} (δ) = \int_{Θ} R (δ, θ) d H (θ) \leq \int_{Θ} M (δ) d H (θ) = c^{'} < c = R_{H} (δ^{*}) .$ 这和 $δ^{*}$ 为 Bayes 解相矛盾.

设

X \sim Binomial (n, p)

, 估计

p

, 平方损失, 求

p

的 Minimax 估计.

取 $p$ 的共轭先验分布 $Beta (a, b)$ . 当 $X = x$ , 后验分布为 $Beta (x + a, n + b - x)$ . 根据这个例子, Bayes 估计就是 Beta 分布的期望值 $δ_{a b} (x) = \frac{a + x}{n + a + b}$ , 风险函数为 $\begin{aligned} R (δ_{a b}, p) & = E_{p} {(\frac{X + a}{n + a + b} - p)}^{2} \\ = {Var}_{p} (\frac{X}{n + a + b}) + {(\frac{E_{p} (X) + a}{n + a + b} - p)}^{2} . \end{aligned}$ 考虑到 $E_{p} (X) = n p, {Var}_{p} (X) = n p (1 - p)$ , 故 $R (δ_{a b}, p) = \frac{n p (1 - p) + [a - (a + b) p]^{2}}{(n + a + b)^{2}} .$ 若取 $a = b = \frac{\sqrt{n}}{2}$ , 则上式右边为 $\frac{n}{4 (n + \sqrt{n})^{2}}$ . 于是根据定理5.1, $δ_{\frac{\sqrt{n}}{2}, \frac{\sqrt{n}}{2}} (x) = \frac{x + \frac{\sqrt{n}}{2}}{n + \sqrt{n}}$ 是 $p$ 的 Minimax 估计.

从这个定理我们看出:

Minimax 与先验无关, 频率学派也能接受. 但有时这个解确却是某些先验分布下的 Bayes 解.
这里引进的 $Beta (\frac{\sqrt{n}}{2}, \frac{\sqrt{n}}{2})$ 可以认为只是解题工具, 所以频率学派也能接受.
传统估计 $δ_{0} = \overset{―}{X}$ 的风险函数为 $R (δ_{0}, p) = \frac{p (1 - p)}{n}$ . 虽然 $δ_{0}$ 不是 Minimax 解, 但是对于多数 $p$ , $R (δ_{0}, p) < R (δ^{*}, p)$ , 因此实际上还是 $δ_{0}$ 用得多. 事实上 $δ^{*}$ 对应的先验分布 $Beta (\frac{\sqrt{n}}{2}, \frac{\sqrt{n}}{2})$ , 会在 $\frac{1}{2}$ 两侧迅速衰减.

前面的定理要求风险函数为常数, 这实际上很难满足. 下面的定理适用范围更广.

定理 5.2

设一个统计判决问题在先验分布 $H_{k}$ 下的解为 $δ_{k}$ , Bayes 风险为 $r_{k}$ . 设 $lim_{k \to \infty} r_{k} = r < \infty$ , 又有判决函数 $δ^{*} : M (δ^{*}) \leq r$ , 则 $δ^{*}$ 为判决问题的 Minimax 解.

证明

反设 $δ^{*}$ 不是 Minimax 解, 则 $\exists δ : M (δ) < M (δ^{*})$ . 则根据定理 5.2 的条件, 当 $k$ 充分大, $M (δ) < r_{k}$ . 于是 $δ$ 的 Bayes 风险 $R_{H_{k}} (δ)$ 满足 $R_{H_{k}} (δ) \leq M (δ) < r_{k} = R_{H_{k}} (δ_{k}) .$ 这和 $δ_{k}$ 是 $H_{k}$ 下的 Bayes 解矛盾.

找一串先验分布 ${H_{k}}$ , $H_{k} = N (0, k^{2})$ , $k = 1, 2, \dots$ . 根据这个例子, Bayes 解是后验分布的均值. 根据这个例子, $δ_{k} (x) = \frac{n k^{2} \overset{―}{x}}{1 + n k^{2}}$ . 其风险函数为 $\begin{aligned} R (δ_{k}, θ) & = E_{θ} {(\frac{n k^{2} \overset{―}{X}}{1 + n k^{2}} - θ)}^{2} \\ = {Var}_{θ} (\frac{n k^{2} \overset{―}{X}}{1 + n k^{2}}) + {(\frac{n k^{2}}{1 + n k^{2}} E_{θ} (\overset{―}{X}) - θ)}^{2} \\ = \frac{n k^{4}}{(1 + n k^{2})^{2}} + \frac{θ^{2}}{(1 + n k^{2})^{2}} . \end{aligned}$ 在 $θ \sim N (0, k^{2})$ 下对上式右边求期望, 得到 $δ_{k}$ 的 Bayes 风险为 $r_{k} = R_{H_{k}} (δ_{k}) = \frac{n k^{4}}{(1 + n k^{2})^{2}} + \frac{k^{2}}{(1 + n k^{2})^{2}} .$ 显然 $r = lim_{k \to \infty} \frac{1}{n}$ . 取 $δ^{*} (x) = \overset{―}{x}$ , 则 $R (δ^{*}, θ) \equiv \frac{1}{n}$ . 根据定理5.2, $\overset{―}{X}$ 是 $θ$ 的 Minimax 估计.

6 同变原理

前面的 Bayes/Minimax 都是制定了一个指标 $R_{H} (δ)$ 或 $M (δ)$ . 另一种方法是首先对判决函数提出一个要求, 在满足要求的类 $A$ 里寻找一致最优解. 例如无偏性. 这里介绍另一种: 同变性要求.

考虑估计某个物体的重量 $a$ . 称重 $n$ 次得到 $X_{1}, \dots, X_{n}$ , 估计 $δ (X_{1}, \dots, X_{n})$ . 设 $X_{1}, \dots, X_{n} \sim N (a, σ^{2})$ . 若把坐标原点移到 $- c$ , 则物体重量变为 $c + a$ , $X_{i}^{'} = X_{i} + c$ , 则估计值为 $δ (X_{1} + c, \dots, X_{n} + c)$ , 还原为 $a$ 的估计为 $δ (X_{1} + c, \dots, X_{n} + c) - c,$ 从而我们要求 $δ (X_{1} + c, \dots, X_{n} + c) = δ (X_{1}, \dots, X_{n}) + c, \forall c \in R .$ 这就是对变换 ${X_{i}^{'} = X_{i} + c}$ 提出的同变性要求. 这样的估计量称为同变估计量. 其中风险一致最小的称为最优同变估计. 又或者伸缩 (如改变单位): $δ (c X_{1}, \dots, c X_{n}) = c δ (X_{1}, \dots, X_{n}), \forall c > 0.$

一个统计判决问题要运用同变性, 需要满足以下两个要求:

能定义 $X \to X$ 的双射, 它们构成一个群. 且这个群内每一个变换都能把样本分布变换到当前分布族内.

每当变换 $X \to X^{'}$ 引起 $θ \to θ^{'}$ , 在行动空间都能找到一一映射 $d \to d^{'}$ , 使 $L (d^{'}, θ^{'}) = L (d, θ)$ .

此时如果 $δ (x) = d \Rightarrow δ (x^{'}) = d^{'}$ , 则 $δ$ 称为同变的.

下面举一个同变性的应用: 若取平方损失, 则 $\overset{―}{X}$ 是 $a$ 的最优同变估计.

引理

设 $X_{1}, \dots, X_{n} \sim N (a, σ^{2})$ , $f (X_{1}, \dots, X_{n})$ 满足条件 $f (X_{1} + c, \dots, X_{n} + c) = f (X_{1}, \dots, X_{n})$ , $\forall c$ . 则 $\overset{―}{X}$ 与 $f (X_{1}, \dots, X_{n})$ 独立.

证明

作正交变换 $Y = (Y_{1}, \dots, Y_{n})^{T} = Q (X_{1}, \dots, X_{n})^{T}$ , $Q$ 的第一行为 $(\frac{1}{\sqrt{n}}, \dots, \frac{1}{\sqrt{n}})$ , 且 $\sum_{j = 1}^{n} q_{i j} = 0$ , $i = 2, \dots, n$ . 根据引理3.1, $Y_{1}, \dots, Y_{n}$ 独立, $\overset{―}{X} = \frac{Y_{1}}{\sqrt{n}}$ 只和 $Y_{1}$ 有关.
设 $f (X_{1}, \dots, X_{n}) = g (Y_{1}, \dots, Y_{n})$ . 当 $(X_{1}, \dots, X_{n}) \to (X_{1} + c, \dots, X_{n} + c)$ , $Y_{1}, \dots, Y_{n}$ 变换为 $\begin{aligned} Y_{1}^{'} & = \frac{1}{\sqrt{n}} \sum_{i = 1}^{n} (X_{i} + c) = Y_{1} + \sqrt{n} c, \\ Y_{i}^{'} & = \sum_{j = 1}^{n} q_{i j} (X_{i} + c) = Y_{i}, i = 2, \dots, n . \end{aligned}$
于是由 $f (X_{1} + c, \dots, X_{n} + c) = f (X_{1}, \dots, X_{n})$ , 有 $g (Y_{1} + \sqrt{n} c, Y_{2}, \dots, Y_{n}) = g (Y_{1}, \dots, Y_{n}), \forall c \in R .$ 这说明 $g (Y_{1}, \dots, Y_{n})$ 其实和 $Y_{1}$ 无关, 即有 $h (Y_{2}, \dots, Y_{n})$ 的形式. 故 $\overset{―}{X} = \frac{Y_{1}}{\sqrt{n}}, f (X_{1}, \dots, X_{n}) = h (Y_{2}, \dots, Y_{n}) .$ 考虑到 $Y_{1}, \dots, Y_{n}$ 相互独立, $\overset{―}{X} ⊥ ⊥ f (X_{1}, \dots, X_{n})$ .

现在回到问题. 取 $a$ 任一同变估计 $δ$ , 记 $δ_{0} (X_{1}, \dots, X_{n}) = δ (X_{1}, \dots, X_{n}) - \overset{―}{X}$ . 由同变条件: $δ_{0} (X_{1} + c, \dots, X_{n} + c) = δ_{0} (X_{1}, \dots, X_{n}), \forall c .$ 所以根据引理, $\overset{―}{X} ⊥ ⊥ δ_{0} (X_{1}, \dots, X_{n})$ . 又 $R (δ, a) = E_{a} [δ (X_{1}, \dots, X_{n}) - a]^{2} = E [(\overset{―}{X} - a) + δ_{0} (X_{1}, \dots, X_{n})]^{2} .$ 因为 $\overset{―}{X} ⊥ ⊥ δ_{0}$ , 所以 $\begin{aligned} R (δ, a) & = E_{a} (\overset{―}{X} - a)^{2} + E_{a} [δ_{0}^{2} (X_{1}, \dots, X_{n})] + 2 E_{a} (\overset{―}{X} - a) E_{a} [δ_{0} (X_{1}, \dots, X_{n})] \\ = E_{a} (\overset{―}{X} - a)^{2} + E_{a} [δ_{0}^{2} (X_{1}, \dots, X_{n})] \\ \geq E_{a} (\overset{―}{X} - a)^{2} = R (\overset{―}{X}, a), \forall a, \end{aligned}$ 所以 $\overset{―}{X}$ 是 $a$ 一切同变估计中风险一致最小者.

7 容许性

这是关于最优性的一个条件, 任何优良判决函数都理应拥有.

容许

对判决函数 $δ$ , 如果存在另一个 $δ_{1}$ , 使

$\forall θ \in Θ$ , $R (δ_{1}, θ) \leq R (δ, θ)$ .
$\exists θ_{0} \in Θ$ , $R (δ_{1}, θ_{0}) < R (δ, θ)$ .

则称 $δ_{1}$ 一致地优于 $δ$ , $δ$ 称为不可容许的. 反之, 如果不存在一致优于 $δ$ 的 $δ_{1}$ , 则 $δ$ 是可容许的.

判决函数的容许性取决于样本分布族、损失函数、参数空间等各个要素. 例如 $X_{1}, \dots, X_{n} \sim N (θ, 1)$ , 平方损失, 用 $\overset{―}{X}$ 估计 $θ$ . 如果 $Θ = (- \infty, + \infty)$ , 下面证明它是容许的; 而如果 $Θ = [a, b]$ , 则定义 $δ_{1} (X_{1}, \dots, X_{n}) = {\begin{aligned} \overset{―}{X}, a \leq \overset{―}{X} \leq b, \\ a, \overset{―}{X} < a, \\ b, \overset{―}{X} > b, \end{aligned}$ 则 $δ_{1}$ 一致优于 $\overset{―}{X}$ .

容许性的问题在于, 给定判决问题, 很难确定哪些判决函数可容许/不可容许. 以下的定理可以解决一部分情况:

定理 7.1

设 $δ_{H}$ 是某个先验分布下的 Bayes 解. 设 $Θ \subset R^{m}$ . $H, δ_{H}$ 满足条件:

$\forall δ$ , 风险函数 $R (δ, θ)$ 关于 $θ$ 连续;
$\forall θ_{0} \in Θ$ , $\forall ρ > 0$ , $H (Θ \cap B_{ρ} (θ_{0})) > 0$ ;
$δ_{H}$ 的 Bayes 风险 $R_{H} (δ_{H}) < \infty$ .

则 $δ_{H}$ 是可容许的.

证明

否则 $\exists δ$ : $R (δ, θ) \leq R (δ_{H}, θ)$ , $\forall θ \in Θ$ , 且 $\exists θ_{0} \in Θ$ , 使 $R (δ_{H}, θ_{0}) - R (δ, θ_{0}) = 2 ε > 0$ . 因为 $R (δ, θ)$ , $R (δ_{H}, θ)$ 关于 $θ$ 连续, 故 $\exists ρ > 0$ , $\forall θ \in B_{ρ} (θ_{0})$ , 有 $R (δ_{H}, θ) - R (δ, θ) \geq ε$ . 此时 $\begin{aligned} R_{H} (δ) & = \int_{Θ} R (δ, θ) d H (θ) \\ = \int_{Θ_{1}} R (δ, θ) d H (θ) + \int_{Θ_{2}} R (δ, θ) d H (θ), \end{aligned}$ 这里 $Θ_{1} = Θ \cap S_{θ_{0}} (ρ)$ , $Θ_{2} = Θ - Θ_{1}$ . 因为 $Θ_{1}$ 上 $R (δ_{H}, θ) \geq R (δ, θ) + ε$ , $Θ_{2}$ 上 $R (δ_{H}, θ) \geq R (δ, θ)$ , 从而 $\begin{aligned} R_{h} (δ_{H}) & = \int_{Θ_{1}} R (δ_{H}, θ) d H (θ) + \int_{Θ_{2}} R (δ, θ) d H (θ) \\ \geq \int_{Θ} R (δ, θ) d H (θ) + ε H (Θ \cap S_{θ_{0}} (ρ)) + \int_{Θ_{2}} R (δ, θ) d H (θ) \\ = R_{H} (δ) + ε H (Θ \cap S_{θ_{0}} (ρ)) > R_{H} (δ) . \end{aligned}$ 这与 $δ_{H}$ 是 $H$ 下的 Bayes 解矛盾.

例子

考虑这个例子. $H$ 在 $0 < p < 1$ 上有处处大于 $0$ 的密度, 故条件 2 满足; 条件 3 显然满足; 对条件 1, 注意到任一 $δ$ 的风险函数: $R (δ, p) = \sum_{i = 0}^{n} [δ (i) - p]^{2} (\binom{n}{i}) p^{i} (1 - p)^{n - i}$ 关于 $p$ 连续. 因此根据定理7.1, Minimax 估计是可容许的.
设 $X_{1}, \dots, X_{n} \sim N (θ, 1)$ . 平方损失. $c \in (0, 1)$ 为常数, 则 $c \overset{―}{X}$ 是 $θ$ 的可容许估计. 事实上取 $θ \sim N (0, τ^{2})$ , 选择 $τ$ : $\frac{n τ^{2}}{1 + n τ^{2}} = c$ . 则由这个例子和这个结论, $c \overset{―}{X}$ 是这个先验分布下的 Bayes 解. 不难验证定理 7.1 的 1～3 都满足, 因此 $c \overset{―}{X}$ 是容许估计. 其中 3: $\begin{aligned} R (δ, θ) & = \int_{- \infty}^{\infty} \dots \int_{- \infty}^{\infty} [δ (x_{1}, \dots, x_{n}) - θ]^{2} {(\frac{1}{\sqrt{2 π}})}^{n} \\ \cdot \exp [- \frac{1}{2} \sum_{i = 1}^{n} (x_{i} - θ)^{2}] d x_{1} \dots d x_{n}, \end{aligned}$ 需要验证它处处有限且可在积分下对 $θ$ 求导.
令 $c \to 1$ 就有 $c \overset{―}{X} \to \overset{―}{X}$ , 因此 $\overset{―}{X}$ 是容许估计的极限, 但它并不一定就容许. 下面的方法基于 C-R 不等式, 可以处理有关单参数指数族的参数在平方损失下的某些容许估计问题.
设 $δ$ 为 $θ$ 任意估计, 满足: $R (δ, θ) \leq R (\overset{―}{X}, θ) = \frac{1}{n}, \forall θ .$ 记 $E_{θ} (δ (X_{1}, \dots, X_{n})) = θ + b (θ)$ , $b^{'} (θ)$ 存在. 根据 C-R不等式, $\begin{matrix} (*) & \frac{[1 + b^{'} (θ)]^{2}}{n} + b^{2} (θ) \leq \frac{1}{n}, \forall θ \in R . \end{matrix}$ 由此 $b^{'} (θ) \leq - l b^{2} (θ)$ , 其中 $l = \frac{n}{2} > 0$ . 则 $\frac{b^{'} (θ)}{b^{2} (θ)} \leq - l$ . 由上式 $b^{'} (θ) \leq 0$ , 故 $b (θ)$ 单减. 现在证 $b (θ) \geq 0$ : 否则 $\exists θ_{0} : b (θ_{0}) < 0$ . 根据单调性, $b (θ) < 0, \forall θ > θ_{0}$ . 从而由 $\frac{b^{'} (θ)}{b^{2} (θ)} \leq - l$ , 当 $θ > θ_{0}$ , 有 $\begin{matrix} (**) & - l (θ - θ_{0}) \geq \int_{θ_{0}}^{θ} \frac{b^{'} (θ)}{b^{2} (θ)} d θ = \frac{1}{b (θ_{0})} - \frac{1}{b (θ)} . \end{matrix}$ 令 $θ \to \infty$ , 则 $b (θ) \to 0$ , 这和 $b (θ_{0}) < 0$ 、 $b (θ)$ 单减矛盾, 从而 $b (θ) \geq 0$ .
这样有两种情况:
- $b (θ) \equiv 0$ . 此时 $δ$ 为 $θ$ 的无偏估计, 而 $\overset{―}{X}$ 为 $θ$ 的 UMVUE, 故 $R (δ, θ) = {Var}_{θ} (δ) \geq {Var}_{θ} (\overset{―}{X}) = R (\overset{―}{X}, θ),$ 此时 $δ$ 不一致优于 $\overset{―}{X}$ .
- 存在 $θ_{0}$ : $b (θ_{0}) > 0$ . 此时 $\forall θ < θ_{0}$ : $b (θ) \geq b (θ_{0}) > 0$ . 但 $θ \to - \infty$ 时, $b (θ) ↛ \infty$ . 否则 (*) 不对一切 $θ$ 成立. 故 $lim_{θ \to - \infty} b (θ) = c$ , $0 < c < \infty$ . 因此在 (**) 中令 $θ_{0} = θ - 1 \to - \infty$ , 有 $- l \geq \frac{1}{b (θ - 1)} - \frac{1}{b (θ)} \to \frac{1}{c} - \frac{1}{c} = 0.$
因此只有情况 1 成立. 而一致优于 $\overset{―}{X}$ 的 $δ$ 不存在, 这就证明了 $\overset{―}{X}$ 的可容许性.

现设 $p$ 个总体, 有分布 $N (θ_{1}, 1), \dots, N (θ_{p}, 1)$ . 从第 $i$ 个总体中抽样 $X_{i 1}, \dots, X_{i n} \sim N (θ_{1}, 1)$ , 合样本全部独立. 估计 $θ_{1}, \dots, θ_{p}$ . 损失函数为: $L ((d_{1}, \dots, d_{p}), (θ_{1}, \dots, θ_{p})) = \sum_{i = 1}^{p} (d_{i} - θ_{i})^{2} .$ 一个自然的估计量是 $({\overset{―}{X}}_{1}, \dots, {\overset{―}{X}}_{p})$ , 其中 ${\overset{―}{X}}_{i} = \frac{1}{n} \sum_{j = 1}^{n} X_{i j}$ . 对于 $p = 2$ 可以证明它是容许的, 但 $p \geq 3$ 时上述估计非容许. 这启示我们, 容许性是一个很复杂的东西.

如果把 $H$ 视为一种加权, 则也可以从频率学派看这个问题. ↩︎
这里"先验分布" $h (θ) \equiv 1$ 是广义的. ↩︎
对估计/检验问题, 也称为 Minimax 估计/检验. ↩︎
这里我们得出了 $\overset{―}{X}$ 的结果. 它同时也是矩估计、极大似然估计、UMVUE. ↩︎