5.2 统计判决理论

Wald 的统计判决理论通过把统计问题转换成数学最优化问题的解, 引入了各种优良性准则; 它引入了"行动"的概念, 并承担后果(损失函数), 使得数理统计可以以更大的经济利益等为发展目标.

1 三要素

对于某一个决策问题, 首先要得到观测数据 X, 它有概率分布 Fθ(x), θΘ. 一旦知道了 θ, 就应该采取明确的决定. 这样, 第一个要素就是样本和概率分布族 X,{Fθ|θΘ}.
其次, 需要明确决定有哪些. 例如如果最大生产能力为 a, 则决定为 d[0,a]. 这里 d 是一个行动, [0,a]行动空间, 记为 D. 再或者做与不做, D={0,1}. 行动空间就是第二个要素.
最后需要明确行动的后果, 例如损失的钱数, 记为 L(d,θ). 损失函数是第三个要素.

在这里我们没有纳入 θ先验分布, 因此统计判决问题也可以是频率学派的研究内容. 加入 θ 先验分布的情况会在 Bayes 判决问题中介绍.

2 判决函数 风险函数

给定 XX, {Fθ|θΘ}, D, L(d,θ). 现在要根据样本值 x 确定行动 d. 也即我们需要一个函数 XD, 把它称为判决/决策函数.
在刚刚的 例子 里, 判决函数可以是 δ(X)={d1,Xn16,d2,Xn>16.
此时的损失函数为 L(δ(x),θ). 平均损失为 R(δ,θ)=E[L(δ(X),θ)]=FL(δ(x),θ)dFθ(x), 称为 δ风险函数.
对上面的 例子, 风险函数为 R(δ,p)=10Npi=0[n6](ni)pi(1p)ni+2N(1p)i=[n6]+1n(ni)pi(1p)ni.
根据 Wald 的理论, 判决函数的评估方法就是风险函数. 如果存在一个判决函数 δ, 使得任何 δ, 都有 R(δ,θ)R(δ,θ),θΘ,δ 称为判决问题的一致最优解.

3 统计推断与统计判决

统计推断的目的是追求真理: 比如弄清参数究竟是不是 0. 它只管对错, 不论后果. 而统计判决考虑后果, 会考虑行动 d 的损失大小. 例如多生产零件会积压库存, 少生产零件只是营收减少, 此时无偏估计反而会产生偏差.

不过统计推断方法仍然可以用统计判决理论来解释, 例如

4 Bayes 准则

在 Bayes 的观点下[1], θ 有先验分布 H(θ). 因此可以对 R(δ,θ) 再求一次平均: RH(δ)=Eθ[R(δ,θ)]=ΘR(δ,θ)dH(θ), 这里 R(δ) 称为 δH 之下的Bayes 风险.

Bayes 解/Bayes 判决函数

如果判决函数 δ 使得 δ, RH(δ)RH(δ), 则 δ 称为一个 Bayes 解/Bayes 判别函数.

后验风险

R(d|x)=ΘL(d,θ)H(dθ|x)d 在得到 x 后的后验风险.

下面的定理告诉我们 Bayes 判决函数的找法.

后验风险最小原则

x, 如果 dx 使后验风险达到最小, 即 R(dx|x)=mindDR(d|x), 则 δH(x)=dx (xX) 是一个 Bayes 判决函数.

如果所有 δ 都有 RH(δ)=, 则任何 δ 都是 Bayes 判决函数, 但此时后验风险最小的解仍然可能唯一, 把它称为推广意义下的 Bayes 判决函数.

在这个例子里, Bayes 准则没有意义, 但确实能得到唯一解, 它也确实有优点.

5 Minimax 准则

考虑 δ 下的可能最大风险 M(δ)=maxθΘR(δ,θ). 让最坏情况尽可能小的准则被称为 Minimax 准则 (或者极小化极大准则).

Minimax 解

δ 是一个统计判决问题的 Minimax 解/判决函数, 如果 δ: M(δ)M(δ). [3]

Pasted image 20251231182006.png|400
从这张图看出, Minimax 是一个保守的估计. M(δ1)<M(δ2), 所以 δ1 在 Minimax 意义下是个更好的估计. 不过如果大多数情况下 θ 不在 (a,b) 上, δ2 总是更好. 所以 Minimax 只作为先验估计不足时候对保险选择.

Minimax 也不是很好求. 目前得到的 Minimax 解主要通过下面两个定理求得, 它们的主要作用是验证某个解是 Minimax 解.

定理 5.1

δ 为某个先验分布 H 的 Bayes 解, 且 δ 的风险函数 R(δ,θ)c,θΘH. 则 δ 是一个 Minimax 解.

从这个定理我们看出:

  1. Minimax 与先验无关, 频率学派也能接受. 但有时这个解确却是某些先验分布下的 Bayes 解.
  2. 这里引进的 Beta(n2,n2) 可以认为只是解题工具, 所以频率学派也能接受.
  3. 传统估计 δ0=X 的风险函数为 R(δ0,p)=p(1p)n. 虽然 δ0 不是 Minimax 解, 但是对于多数 p, R(δ0,p)<R(δ,p), 因此实际上还是 δ0 用得多. 事实上 δ 对应的先验分布 Beta(n2,n2), 会在 12 两侧迅速衰减.

前面的定理要求风险函数为常数, 这实际上很难满足. 下面的定理适用范围更广.

定理 5.2

设一个统计判决问题在先验分布 Hk 下的解为 δk, Bayes 风险为 rk. 设 limkrk=r<, 又有判决函数 δ:M(δ)r, 则 δ 为判决问题的 Minimax 解.


找一串先验分布 {Hk}, Hk=N(0,k2), k=1,2,. 根据 这个例子, Bayes 解是后验分布的均值. 根据 这个例子, δk(x)=nk2x1+nk2. 其风险函数为R(δk,θ)=Eθ(nk2X1+nk2θ)2=Varθ(nk2X1+nk2)+(nk21+nk2Eθ(X)θ)2=nk4(1+nk2)2+θ2(1+nk2)2.θN(0,k2) 下对上式右边求期望, 得到 δk 的 Bayes 风险为 rk=RHk(δk)=nk4(1+nk2)2+k2(1+nk2)2. 显然 r=limk1n. 取 δ(x)=x, 则 R(δ,θ)1n. 根据 定理5.2, Xθ 的 Minimax 估计.

6 同变原理

前面的 Bayes/Minimax 都是制定了一个指标 RH(δ)M(δ). 另一种方法是首先对判决函数提出一个要求, 在满足要求的类 A 里寻找一致最优解. 例如无偏性. 这里介绍另一种: 同变性要求.

考虑估计某个物体的重量 a. 称重 n 次得到 X1,,Xn, 估计 δ(X1,,Xn). 设 X1,,XnN(a,σ2). 若把坐标原点移到 c, 则物体重量变为 c+a, Xi=Xi+c, 则估计值为 δ(X1+c,,Xn+c), 还原为 a 的估计为 δ(X1+c,,Xn+c)c, 从而我们要求 δ(X1+c,,Xn+c)=δ(X1,,Xn)+c,cR. 这就是对变换 {Xi=Xi+c} 提出的同变性要求. 这样的估计量称为同变估计量. 其中风险一致最小的称为最优同变估计. 又或者伸缩 (如改变单位): δ(cX1,,cXn)=cδ(X1,,Xn),c>0.

一个统计判决问题要运用同变性, 需要满足以下两个要求:

此时如果 δ(x)=dδ(x)=d, 则 δ 称为同变的.

下面举一个同变性的应用: 若取平方损失, 则 Xa 的最优同变估计.

引理

X1,,XnN(a,σ2), f(X1,,Xn) 满足条件 f(X1+c,,Xn+c)=f(X1,,Xn), c. 则 Xf(X1,,Xn) 独立.

现在回到问题. 取 a 任一同变估计 δ, 记 δ0(X1,,Xn)=δ(X1,,Xn)X. 由同变条件: δ0(X1+c,,Xn+c)=δ0(X1,,Xn),c. 所以根据引理, Xδ0(X1,,Xn). 又 R(δ,a)=Ea[δ(X1,,Xn)a]2=E[(Xa)+δ0(X1,,Xn)]2. 因为 Xδ0, 所以R(δ,a)=Ea(Xa)2+Ea[δ02(X1,,Xn)]+2Ea(Xa)Ea[δ0(X1,,Xn)]=Ea(Xa)2+Ea[δ02(X1,,Xn)]Ea(Xa)2=R(X,a),a, 所以 Xa 一切同变估计中风险一致最小者.

7 容许性

这是关于最优性的一个条件, 任何优良判决函数都理应拥有.

容许

对判决函数 δ, 如果存在另一个 δ1, 使

  • θΘ, R(δ1,θ)R(δ,θ).
  • θ0Θ, R(δ1,θ0)<R(δ,θ).

则称 δ1一致地优于δ, δ 称为不可容许的. 反之, 如果不存在一致优于 δδ1, 则 δ可容许的.

判决函数的容许性取决于样本分布族、损失函数、参数空间等各个要素. 例如 X1,,XnN(θ,1), 平方损失, 用 X 估计 θ. 如果 Θ=(,+), 下面证明它是容许的; 而如果 Θ=[a,b], 则定义 δ1(X1,,Xn)={X,aXb,a,X<a,b,X>b,δ1 一致优于 X.

容许性的问题在于, 给定判决问题, 很难确定哪些判决函数可容许/不可容许. 以下的定理可以解决一部分情况:

定理 7.1

δH 是某个先验分布下的 Bayes 解. 设 ΘRm. H,δH 满足条件:

  1. δ, 风险函数 R(δ,θ) 关于 θ 连续;
  2. θ0Θ, ρ>0, H(ΘBρ(θ0))>0;
  3. δH 的 Bayes 风险 RH(δH)<.

δH 是可容许的.

现设 p 个总体, 有分布 N(θ1,1),,N(θp,1). 从第 i 个总体中抽样 Xi1,,XinN(θ1,1), 合样本全部独立. 估计 θ1,,θp. 损失函数为: L((d1,,dp),(θ1,,θp))=i=1p(diθi)2. 一个自然的估计量是 (X1,,Xp), 其中 Xi=1nj=1nXij. 对于 p=2 可以证明它是容许的, 但 p3 时上述估计非容许. 这启示我们, 容许性是一个很复杂的东西.


  1. 如果把 H 视为一种加权, 则也可以从频率学派看这个问题. ↩︎

  2. 这里"先验分布" h(θ)1 是广义的. ↩︎

  3. 对估计/检验问题, 也称为 Minimax 估计/检验. ↩︎

  4. 这里我们得出了 X 的结果. 它同时也是矩估计、极大似然估计、UMVUE. ↩︎