2.2 无偏估计

#UnbiasedEstimation #MSE #UMVUE #SufficientStatistic #CompleteStatistic #ExponentialFamily #CramerRao #PoissonDistribution #FisherInformation #PointEstimation

1 无偏估计一致最小方差无偏估计

无偏估计

样本 $X$ 的分布依赖于参数 $θ \in Θ$ , $g (θ)$ 是定义在 $Θ$ 上的已知函数, $\hat{g} (X)$ 是 $g (θ)$ 的一个估计量. 如果 $\begin{matrix} (1.1) & E_{θ} [\hat{g} (X)] = g (θ), \end{matrix}$ 则称 $\hat{g} (X)$ 是 $g (θ)$ 的一个无偏估计.

$E_{θ}$ 指在 $θ$ 下计算期望.

一个参数的无偏估计可能不止一个, 也可能根本没有.

例子

$X \sim B (n, p)$ , $p$ 是未知参数. $g (p) = \sin p$ . 因为 $X \in {0, 1, \dots, n}$ , 故要给出估计 $\hat{g}$ , 只需指出 $a_{i} = \hat{g} (i)$ 即可. 若 $\hat{g}$ 无偏, 则 $E_{p} [\hat{g} (X)] = \sum_{i = 0}^{n} a_{i} (\binom{n}{i}) p^{i} (1 - p)^{n - i} = g (p) = \sin p,$
但是多项式一定不是超越函数, 因此 $\sin p$ 没有无偏估计.

为了应对无偏估计不唯一的问题, 采用均方误差准则来从中挑选最佳的. 设 $g (θ)$ 是一维的.

均方误差

记均方误差(Mean Square Error)为 ${MSE}_{θ} (\hat{g}) = E_{θ} [\hat{g} (X) - g (θ)]^{2} .$
若 $\hat{g}$ 是无偏估计, 则 ${MSE}_{θ} (\hat{g}) = {Var}_{θ} (\hat{g}) .$

一致最小方差无偏估计 UMVUE

$\hat{g}$ 为 $g (θ)$ 的一个无偏估计, 使得任一无偏估计 ${\hat{g}}_{1}$ 都满足 $\begin{matrix} (1.2) & {Var}_{θ} (\hat{g}) \leq {Var}_{θ} ({\hat{g}}_{1}), \end{matrix}$
则 $\hat{g}$ 是 $g (θ)$ 的一个一致最小方差无偏估计( #UMVUE , Uniformly Minimum Variance Unbiased Estimate).

在讨论 UMVUE 求法前, 先给出一个引理

引理 1.1

$T = T (X)$ 是一个充分统计量, $\hat{g}$ 是 $g (θ)$ 的一个无偏估计, 则存在 $g (θ)$ 的无偏估计 $h (T (X))$ , 使得 $\begin{matrix} (1.3) & {Var}_{θ} (h (T (X))) \leq {Var}_{θ} (\hat{g} (X)), \end{matrix}$ 等号当且仅当 $\hat{g} (X)$ 能表为 $T (X)$ 的函数.

证明

$T$ 是充分统计量, 故按定义, 给定 $T$ 时, $X$ 的条件分布与 $θ$ 无关, 故 $E_{θ} (\hat{g} (X) | T)$ 与 $θ$ 无关, 记为 $h (T)$ . 又 $\hat{g}$ 为无偏估计, 故 $\begin{matrix} (塔式法则) & E_{θ} (h (T (X))) = E_{θ} E_{θ} (\hat{g} (X) | T) = E_{θ} (\hat{g} (X)) = g (θ) \end{matrix}$ 故 $h (T (X))$ 是 $g (θ)$ 的无偏估计. 现任取 $θ_{0} \in Θ$ , 有 $h^{2} (T (X)) = [E_{θ_{0}} (\hat{g} (X) | T)]^{2} \leq E_{θ_{0}} ({\hat{g}}^{2} (X) | T) .$ 套期望: $E_{θ_{0}} [h^{2} (T (X))] \leq E_{θ_{0}} E_{θ_{0}} ({\hat{g}}^{2} (X) | T) = E_{θ_{0}} ({\hat{g}}^{2} (X)),$ 进而 $\begin{aligned} {Var}_{θ_{0}} (h (T (X))) = & E_{θ_{0}} (h^{2} (T (X))) - g^{2} (θ_{0}) \\ \leq & E_{θ_{0}} ({\hat{g}}^{2} (X)) - g^{2} (θ_{0}) \\ = & {Var}_{θ_{0}} (\hat{g} (X)), \end{aligned}$
等号成立时 ${Var}_{θ_{0}} (\hat{g} (X) | T) = 0$ , 也即给定 $T$ 时 $\hat{g} (X)$ 是常数, 也即 $\hat{g} (X)$ 可表为 $T$ 的函数.

引理说明, 当有充分统计量 $T$ 时, 只需考虑能表示为 $T$ 的函数的无偏估计类.

2 零无偏估计法

定理 2.1

$\hat{g} (X)$ 是 $g (θ)$ 的一个无偏估计, ${Var}_{θ} (\hat{g} (X)) < \infty$ , 对任意满足 $E_{θ} (l (X)) = 0, \forall θ \in Θ$ 的统计量 $l$ , 有 $\begin{matrix} (2.1) & {Cov}_{θ} (\hat{g} (X), l (X)) = E_{θ} (\hat{g} (X) l (X)) = 0, \end{matrix}$ 则 $\hat{g} (X)$ 是 $g (θ)$ 的 UMVUE.

条件 $E_{θ} (l (X)) = 0$ 意味着 $l$ 是零的无偏估计, 因此得名.

证明

取任一无偏估计 ${\hat{g}}_{1} (X)$ , 记 $l (X) = {\hat{g}}_{1} (X) - \hat{g} (X)$ , 则 (2.1) 成立, 故 $\begin{aligned} {Var}_{θ} ({\hat{g}}_{1} (X)) = & {Var}_{θ} (\hat{g} (X) + l (X)) \\ = & {Var}_{θ} (\hat{g} (X)) + {Var}_{θ} (l (X)) + 2 {Cov}_{θ} (\hat{g} (X), l (X)) \\ = & {Var}_{θ} (\hat{g} (X)) + {Var}_{θ} (l (X)) \geq {Var}_{θ} (\hat{g} (X)) . \end{aligned}$

零无偏估计法通常会和引理1.1 一起使用. 首先引入充分统计量 $T = T (X)$ , 并据此将检索范围缩小到可表为 $T$ 的函数的无偏估计类. 再根据 $T$ 来构造 UMVUE 的表达式.

A

的概率

p

未知; 独立地做

n

次实验,

X_{i} = 1, 0

表示第

i

次试验中

A

发生与否, 求

p

的 UMVUE.

记 $T (X) = X_{1} + \dots + X_{n}$ , 依据这个例子, $T$ 是充分统计量; 依据引理1.1, UMVUE 的寻找范围可以缩小到可表为 $T$ 的函数的无偏估计类. 现取 $\hat{g} = \frac{T}{n}$ , 来验证它满足定理2.1.
首先, $\hat{g}$ 是 $p$ 的无偏估计, ${Var}_{p} (\hat{g}) < \infty (0 \leq p \leq 1)$ .
然后, 设 $l = l (T)$ 是零的无偏估计, $a_{i} = l (i)$ , 则由于 $T \sim B (n, p)$ , 记 $s = \frac{p}{1 - p}$ , 则 $\begin{aligned} E_{p} l = \sum_{i = 0}^{n} a_{i} (\binom{n}{i}) p^{i} (1 - p)^{n - i} = 0 \\ \Rightarrow & \sum_{i = 1}^{n} a_{i} (\binom{n}{i}) s^{i} = 0, \forall s \in (0, \infty) \Rightarrow a_{i} = 0, \end{aligned}$ 因此 $l$ 只能取 $0$ 值, 满足定理 2.1. 这样, $\frac{T}{n}$ 确实是 $p$ 的 UMVUE.

回到这个例子, 求总体分布均值

\frac{1}{λ}

的 UMVUE.

再次利用 $T = X_{1} + \dots X_{n}$ 是充分统计量. 取 $\hat{g} = \frac{T}{n}$ 是 $\frac{1}{λ}$ 的无偏估计, 且 ${Var}_{λ} (\hat{g}) < \infty$ . 现设 $l = l (T)$ 为零的无偏估计, 则由这里的(2.4), 有 $0 = E_{λ} (l (T)) = \frac{1}{(n - 1)!} \int_{0}^{\infty} λ^{n} e^{- λ x} x^{n - 1} l (x) d x, (λ > 0)$
即 $\int_{0}^{\infty} l (x) e^{- λ x} x^{n - 1} d x = 0.$ 两边对 $λ$ 求导数: $\int_{0}^{\infty} x l (x) e^{- λ x} x^{n - 1} d x = 0 \Rightarrow E_{λ} (T l (T)) = 0,$ 这样 $\hat{g}$ 满足定理 2.1.

回到这个例子, 求

θ

的 UMVUE.

该例子已经证明 $T = max {X_{1}, \dots, X_{n}}$ 是充分的. 由于 $P_{θ} (T < t) = P_{θ} (X_{1} < t, \dots, X_{n} < t) = \prod_{i = 1}^{n} P_{θ} (X_{i} < t) = \frac{t^{n}}{θ^{n}}, 0 < t < θ,$ 故 $T$ 的概率密度为 $\begin{matrix} (求导) & {\begin{aligned} \frac{n t^{n - 1}}{θ^{n}}, 0 < t < θ, \\ 0, 其他情形 . \end{aligned} \end{matrix}$ 取 $\hat{g} = \hat{g} (T) = \frac{n + 1}{n} T$ , 则 $E_{θ} \hat{g} = \int_{0}^{θ} θ^{- n} n t^{n - 1} \frac{n + 1}{n} t d t = θ, \forall θ > 0.$ 即 $\hat{g}$ 是 $θ$ 的无偏估计. 现设 $l = l (T)$ 是零的无偏估计, 则 $\int_{0}^{\infty} l (x) \frac{n x^{n - 1}}{θ^{n}} d x = 0 \Rightarrow \int_{0}^{\infty} l (x) x^{n - 1} d x = 0.$ 对 $θ$ 求导, 得 $l (θ) θ^{n - 1} = 0 \Rightarrow l (θ) = 0 (θ > 0)$ , 故满足定理 2.1.

设

X_{1}, \dots, X_{n} \sim N (a, σ^{2})

, 求

a, σ

的 UMVUE.

记 $T = (T_{1}, T_{2})$ , 其中 $T_{1} = \overset{―}{X}, T_{2} = (n - 1) S^{2} = \sum_{i = 1}^{n} (X_{i} - \overset{―}{X})^{2}$ . 在 #？中证明了 $T$ 是充分统计量. 又根据这里的定理3.1, 得到 $T$ 的密度函数 $\begin{matrix} (?) & f_{θ} (t_{1}, t_{2}) = \frac{\sqrt{n}}{\sqrt{2 π} σ} \exp (- \frac{n (t_{1} - a)^{2}}{2 σ^{2}}) {(2^{\frac{n - 1}{2}} Γ (\frac{n - 1}{2}) σ^{n - 1})}^{- 1} t_{2}^{\frac{n - 3}{2}} \exp (- \frac{t_{2}}{2 σ^{2}}) \end{matrix}$
(在非 $- \infty < t_{1} < \infty, t_{2} > 0$ 时为 $0$ ).
先估计 $a$ . 令 $\hat{g} = \hat{g} (T) = T_{1}$ , 则 $\hat{g}$ 为 $g (θ) = a$ 的无偏估计, ${Var}_{θ} (\hat{g}) < \infty$ . 设 $l = l (T)$ 为零的无偏估计, $E_{θ} (l (T)) = 0$ , 也即 $\int_{0}^{\infty} \int_{- \infty}^{\infty} l (t_{1}, t_{2}) t_{2}^{\frac{n - 3}{2}} \exp (- \frac{1}{2 σ^{2}} [n (t_{1} - a)^{2} + t_{2}]) d t_{1} d t_{2} = 0.$ 对 $a$ 求导: $\int_{0}^{\infty} \int_{- \infty}^{\infty} l (t_{1}, t_{2}) (t_{1} - a) t_{2}^{\frac{n - 3}{2}} \exp (- \frac{1}{2 σ^{2}} [n (t_{1} - a)^{2} + t_{2}]) d t_{1} d t_{2} = 0$ 从而 ${Cov}_{θ} (l, \hat{g}) = E_{θ} [l (T) (T_{1} - a)] = 0, - \infty < a < \infty, σ > 0.$ 满足定理 2.1.
类似地证明: $\frac{T_{2}}{n - 1} = S^{2}$ 是 $σ^{2}$ 的 UMVUE.

3 充分-完备统计量法

本方法是定理2.1 的特例, 将它摆在与之平行的地位.

完备统计量

$T$ 是一个统计量 (不必充分). 若对任意 $\begin{matrix} (3.1) & E_{θ} (l (T (X))) = 0, \forall θ \in Θ \end{matrix}$ 的 $l (T)$ , 都有 $\begin{matrix} (3.2) & P_{θ} (l (T (X)) = 0) = 1, \end{matrix}$ 则称 $T$ 是一个完备统计量.

设 $T (X)$ 有概率密度 $h_{θ} (t)$ , 则 (3.1) 可以进一步写成 $\begin{matrix} (3.3) & \int l (t) h_{θ} (t) d t = 0. \end{matrix}$ 因此可以理解为 $l$ 与 ${h_{θ} | θ \in Θ}$ 正交.

定理 3.1

$T$ 是一个完备充分统计量, $\hat{g} (T (X))$ 是 $g (θ)$ 的一个无偏估计, 满足 ${Var}_{θ} (\hat{g} (T (X))) < \infty$ , 则 $\hat{g} (T (X))$ 是 $g (θ)$ 的唯一的 UMVUE.
唯一性是指, 若 $\hat{g}, {\hat{g}}_{1}$ 都是 UMVUE, 则 $P_{θ} (\hat{g} \neq {\hat{g}}_{1}) = 0, \forall θ \in Θ$ .

这个例子和这个例子的

T

是充分、完备的.

例子

回到这个例子, 考虑废品率 $\frac{M}{N}$ 的估计 ( $N$ 已知, $M$ 为参数). 令 $T (X) = X_{1} + \dots + X_{n}$ , 这个例子已经证明它是完备统计量, $\frac{T}{n}$ 又是 $\frac{M}{N}$ 的无偏估计, 因此根据定理3.1, 需要说明 $T$ 是完备统计量. 现取 $l (T)$ 满足 $E_{M} (l (T)) = \sum_{i = 0}^{M} l (i) (\binom{M}{i}) (\binom{N - M}{n - i}) / (\binom{N}{n}) = 0, 0 \leq M \leq N .$ 令 $M = 0$ , 代入得 $l (0) = 0$ . 再令 $M = 1$ , 得 $(\binom{N - M}{n}) l (0) + (\binom{M}{1}) (\binom{N - M}{n - 1}) l (1) = 0 \Rightarrow l (1) = 0,$ 如此往复得 $l (i) = 0, 0 \leq i \leq n$ . 这样 $T$ 是完备统计量.

例子

回到这个例子, 证明 $T = X_{1} + \dots + X_{n}$ 是完备的. 事实上, 若 $E_{λ} (l (T)) = 0, \forall λ > 0$ , 则 $\int_{0}^{\infty} l (x) x^{n - 1} e^{- λ x} d x = 0, λ > 0,$ 则 $l (x) x^{n - 1}$ 的 #Laplace变换为 $0$ . 依据 Laplace 变换的唯一性, $l (x) x^{n - 1} = 0 \Rightarrow l (x) = 0$ .

定理 3.2 充分完备统计量的判定

设样本 $X$ 有概率函数 $\begin{matrix} (3.4) & f (x, θ) = C (θ) \exp [T_{1} (x) Q_{1} (θ) + \dots + T_{k} (x) Q_{k} (θ)] h (x), \end{matrix}$ (这被称为 指数型分布族 ( #ExponentialFamily ) )则 $T (X) = (T_{1} (X), \dots, T_{k} (X))$ 为充分统计量.
若 ${(Q_{1} (θ), \dots, Q_{k} (θ)) | θ \in Θ} \subset R^{k}$ 有内点, 则 $T$ 是完备的.

例子

$X_{1}, \dots, X_{n} \sim N (a, σ^{2}), θ = (a, σ^{2})$ , 则 $X$ 的概率密度满足 (3.4) 的形式. 其中 $\begin{aligned} k = 2, T_{1} (x) = \sum_{i = 1}^{n} x_{i}, T_{2} (x) = \sum_{i = 1}^{n} x_{i}^{2}, Q_{1} (θ) = \frac{a}{σ^{2}}, Q_{2} (θ) = - \frac{1}{2 σ^{2}}, \\ C (θ) = (\sqrt{2 π} σ)^{- n} \exp (- \frac{n a^{2}}{2 σ^{2}}) . \end{aligned}$ 而 ${(\frac{a}{σ^{2}}, - \frac{1}{2 σ^{2}}) | - \infty < a < \infty, σ > 0}$ 是 $R^{2}$ 的半平面, 存在内点, 故依据定理3.2, $T = (T_{1}, T_{2})$ 是充分完备统计量. 这样, 基于 $T$ 的无偏估计量 $\overset{―}{X} = \frac{T_{1}}{n}, S^{2} = \frac{1}{n - 1} (T_{2} - \frac{T_{1}^{2}}{n})$ 是 $a, σ^{2}$ 的唯一 UMVUE (依据定理3.1)

4 C-R 不等式法

C-R 不等式给出了估计方差的下界; 如果找到一个无偏估计使得方差正好取得下界, 那么它就是 UMVUE.

定理 4.1 Cramer-Rao 不等式

设 $X$ 有概率密度函数 $f (x, θ)$ (离散情形同理) $θ \in Θ = (a, b)$ 是一维的参数, $g (θ)$ 为待估函数. 设 $\hat{g} (x)$ 为 $g (θ)$ 的一个无偏估计, 则 $\begin{matrix} (4.1) & {Var}_{θ} (\hat{g} (X)) \geq \frac{[g^{'} (θ)]^{2}}{E_{θ} {(\frac{\partial \ln f (x, θ)}{\partial θ})}^{2}} . \end{matrix}$ 特别地, 当 $g (θ) = θ$ 时, $\begin{matrix} (4.2) & {Var}_{θ} (\hat{g} (X)) \geq \frac{1}{E_{θ} {(\frac{\partial \ln f (X, θ)}{\partial θ})}^{2}} . \end{matrix}$

为了使证明成立, 需要给出一些光滑性的假设, 比如 $g^{'} (θ)$ 要存在, 以及几个积分、求导交换的操作需要成立.

证明

根据无偏估计的定义 $\int_{X} \hat{g} (x) f (x, θ) d x = g (θ),$
对 $θ$ 求导: $\int_{X} \hat{g} (x) \frac{\partial f (x, θ)}{\partial θ} d x = g^{'} (θ) .$ 又 $\int f (x, θ) d x = 1 \Rightarrow \int \frac{\partial f (x, θ)}{\partial θ} d x = 0,$
因此 $\int [\hat{g} (x) - g (θ)] \frac{\partial f (x, θ)}{\partial θ} d x = g^{'} (θ) .$ 将它改写为 $\int {[\hat{g} (x) - g (θ)] \sqrt{f (x, θ)}} (\frac{1}{\sqrt{f (x, θ)}} \frac{\partial f (x, θ)}{\partial θ}) d x = g^{'} (θ) .$ 利用 Cauchy-Schwarz 不等式: $\int [\hat{g} (x) - g (θ)]^{2} f (x, θ) d x \cdot \int {(\frac{1}{f (x, θ)} \frac{\partial f (x, θ)}{\partial θ})}^{2} f (x, θ) d x \geq [g^{'} (θ)]^{2},$
也即 ${Var}_{θ} (\hat{g} (X)) \cdot E_{θ} {(\frac{\partial \ln f (X, θ)}{\partial θ})}^{2} \geq [g^{'} (θ)]^{2} .$ 这就完成了证明.

推论 4.1

若 $X_{1}, \dots, X_{n}$ 独立同分布, 且总体概率函数为 $f_{θ}$ , 则 $f (x, θ) = \prod_{i = 1}^{n} f_{θ} (x_{i})$ . 此时依据 (4.2) 的情形, 有 $\begin{matrix} (4.3) & {Var}_{θ} (\hat{g} (X)) \geq \frac{1}{n I (θ)}, \end{matrix}$
其中 $\begin{matrix} (4.4) & I (θ) = E_{θ} {(\frac{\partial \ln f_{θ} (X_{1})}{\partial θ})}^{2} = \int \frac{1}{f_{θ} (t)} {(\frac{\partial f_{θ} (t)}{\partial t})}^{2} d t . \end{matrix}$

证明

注意到 $\begin{matrix} (*) & \frac{\partial \ln f (x, θ)}{\partial θ} = \sum_{i = 1}^{n} \frac{\partial \ln f_{θ} (x_{i})}{\partial θ} . \end{matrix}$
当 $i \neq j$ 时, $X_{i}, X_{j}$ 独立, 故 $E_{θ} (\frac{\partial \ln f_{θ} (X_{i})}{\partial θ} \frac{\partial \ln f_{θ} (X_{j})}{\partial θ}) = E_{θ} (\frac{\partial \ln f_{θ} (X_{i})}{\partial θ}) E_{θ} (\frac{\partial \ln f_{θ} (X_{j})}{\partial θ}) .$
但 $\begin{aligned} E_{θ} (\frac{\partial \ln f_{θ} (X_{i})}{\partial θ}) = & \int \frac{1}{f_{θ} (x_{i})} \frac{\partial f_{θ} (x_{i})}{\partial x_{i}} f_{θ} (x_{i}) d x_{i} \\ = & \int \frac{\partial f_{θ} (x_{i})}{\partial θ} d x_{i} = \frac{\partial}{\partial θ} \int f_{θ} (x_{i}) d x_{i} = \frac{\partial}{\partial θ} (1) = 0, \end{aligned}$ 故 $E_{θ} (\frac{\partial \ln f_{θ} (X_{i})}{\partial θ} \frac{\partial \ln f_{θ} (X_{j})}{\partial θ}) = 0.$ 这样，对 (*) 两边平方再求期望: $E_{θ} {(\frac{\partial \ln f (X, θ)}{\partial θ})}^{2} = \sum_{i = 1}^{n} E_{θ} {(\frac{\partial \ln f_{θ} (X_{i})}{\partial θ})}^{2} = n E_{θ} {(\frac{\partial \ln f_{θ} (X_{1})}{\partial θ})}^{2} .$

定理 4.1 的约束条件不仅与样本分布 $f (x, θ)$ 有关, 还与 $\hat{g}$ 有关. 可以建立某种较易验证的充分条件, 例如

定理 4.2

$X_{1}, \dots, X_{n}$ 是简单随机样本, 总体有 $f_{θ}$ . $θ \in Θ = (a, b)$ , $g (θ)$ 为 $Θ$ 上可微的待估函数. 设存在 $G (t, θ)$ 满足: (1) $E_{θ} (G^{2} (X_{1}, θ)) < \infty$ ; (2) $\forall θ \in Θ, \exists ε_{0} > 0, \forall | ψ - θ | < ε_{0} :$ $| \frac{\partial f_{ψ} (t)}{\partial ψ} / f_{θ} (t) | \leq G (t, θ) .$ 则当 $\hat{g} (X)$ 是 $g (θ)$ 的一个无偏估计时, (4.1) 成立.

例子

回到这个例子, 总体概率函数为 $f_{p} (1) = p, f_{p} (0) = 1 - p$ , 也即 $f_{p} (t) = p^{t} (1 - p)^{1 - t} (t = 0, 1)$ . 故 $\frac{\partial \ln f_{p} (X_{1})}{\partial p} = \frac{X_{1} - p}{p (1 - p)} \Rightarrow I (p) = \frac{1}{p (1 - p)} .$ 从而代入 (4.3), 得 ${Var}_{θ} (\hat{g} (X)) \geq \frac{p (1 - p)}{n}$ . 另一方面, $\overset{―}{X}$ 的方差恰是这个 (参考这里的推导 ), 因此就是 $p$ 的 UMVUE.

Poisson 分布

$P_{θ} (X = x) = \frac{1}{x!} e^{- θ} θ^{x} . (x \in N, 0 < θ < \infty)$

例子

在 Poisson 分布中估计 $g (θ) = θ$ . 注意到 $\frac{\partial f_{θ} (X_{1})}{\partial θ} = \frac{X_{1} - θ}{θ}$ (对上面的 $P_{θ}$ 求导, 去除不必要的系数), 得 $I (θ) = \frac{1}{θ}$ . 当样本大小为 $n$ , $θ$ 的无偏估计的方差下降到 $\frac{θ}{n}$ , 而 $\overset{―}{X}$ 的方差达到了这个下限, 因此是 $θ$ 的 UMVUE.

例子

再次回到这个例子, 总体密度为 $λ e^{- λ x}$ , 因此 $\frac{\partial \ln f_{λ} (X_{1})}{\partial λ} = \frac{1 - λ X_{1}}{λ} \Rightarrow I (λ) = \frac{1}{λ^{2}} .$ 待估函数为 $g (λ) = \frac{1}{λ}$ , 得 C-R 下界 ${(\frac{1}{λ^{2}})}^{2} / (n \frac{1}{λ^{2}}) = \frac{1}{n λ^{2}}$ , $\overset{―}{X}$ 的方差恰好达到这个下界.

4.1 估计的效率和有效估计

效率有效估计

记 $e_{\hat{θ}} (θ) = \frac{1}{n I (θ)} / {Var}_{θ} (\hat{θ}) = \frac{1}{n I (θ) {Var}_{θ} (\hat{θ})} \in [0, 1]$ 为无偏估计 $\hat{θ}$ 的效率.
当 $e_{\hat{θ}} (θ) = 1 (\forall θ)$ , 则 $\hat{θ}$ 为 UMVUE, 称 $\hat{θ}$ 为有效估计 (与 UMVUE 等价, 是一回事).

这个定义的缺点是有些时候不存在无偏估计能达到 C-R 不等式的下界; 有些时候 C-R 不等式的成立条件无法满足.

例子

回到这个例子, $f_{θ} (t) = \frac{1}{θ} (0 < t < θ)$ , 在其他地方为 $0$ . 固定 $t > 0$ , 则 $f_{θ} (t)$ 在 $θ = t$ 处不连续, 不存在偏导数. 如果形式地按照公式计算, $\frac{\partial \ln f_{θ} (X_{1})}{\partial θ} = - \frac{1}{θ}, I (θ) = \frac{1}{θ^{2}}$ , 故 C-R 不等式提供的下界为 $\frac{θ^{2}}{n}$ . 但从例子中的无偏估计 $\frac{n + 1}{n} T = \frac{n + 1}{n} max (X_{1}, \dots, X_{n})$ 来看, 根据给出的概率密度函数, 可得 ${Var}_{θ} (\frac{n + 1}{n} T) = \frac{θ^{2}}{n (n + 2)} < \frac{θ^{2}}{n}$ 矛盾.

4.2 Fisher 信息量

Fisher 信息量

(4.4) 的 $I (θ)$ 称为该分布族的Fisher 信息量.

对于多维, 有这样的结论

定理 4.3 多维 C-R 不等式

定义 $I_{i j} (θ) = E_{θ} [\frac{\partial \ln f_{θ} (X_{1})}{\partial θ_{i}} \frac{\partial \ln f_{θ} (X_{1})}{\partial θ_{j}}], I (θ) = (I_{i j} (θ)),$ ( $I (θ)$ 称为 Fisher信息阵) 则 ${Cov}_{θ} (\hat{θ}) \geq (n I (θ))^{- 1} .$
若记 $(I_{i j}^{*} (θ)) = (I (θ))^{- 1}$ , 则有 ${Var}_{θ} ({\hat{θ}}_{i}) \geq \frac{I_{i i}^{*} (θ)}{n}, 1 \leq i \leq k .$

例子

设 $X_{1}, \dots, X_{n} \sim N (a, σ^{2}), θ = (a, σ^{2}), f_{θ} = (2 π θ_{2})^{- 1 / 2} \exp (- \frac{(t - θ_{1})^{2}}{2 θ_{2}})$ . 因此 $\frac{\partial \ln f_{θ} (X_{1})}{\partial θ_{1}} = \frac{X_{1} - θ_{1}}{θ_{2}}, \frac{\partial \ln f_{θ} (X_{1})}{\partial θ_{2}} = \frac{θ_{2} - (X_{1} - θ_{1})^{2}}{2 θ_{2}^{2}},$ 可以算出 $\begin{aligned} I_{11} (θ) = \frac{1}{σ^{2}}, I_{22} (θ) = \frac{1}{2 σ^{4}}, I_{12} (θ) = I_{21} (θ) = 0; \\ I_{11}^{*} (θ) = \frac{1}{σ^{2}}, I_{22}^{*} (θ) = 2 σ^{4}, I_{12}^{*} (θ) = I_{21}^{*} (θ) = 0. \end{aligned}$
这给出了 $a, σ^{2}$ 无偏估计方差的下限, 分别是 $σ^{2} / n, 2 σ^{4} / n$ . 前一个下限 $\overset{―}{X}$ 可以达到, 后一个无法达到; 在这个例子中我们证明了 $S^{2}$ 是 $σ^{2}$ 的 UMVUE. 利用 $(n - 1) S^{2} / σ^{2} \sim χ_{n - 1}^{2}, Var (χ_{n - 1}^{2}) = 2 (n - 1)$ 的事实, ${Var}_{θ} (S^{2}) = \frac{2 σ^{4}}{n - 1} > \frac{2 σ^{4}}{n}$ .

1 无偏估计 一致最小方差无偏估计

2 零无偏估计法

3 充分-完备统计量法

4 C-R 不等式法

4.1 估计的效率和有效估计

4.2 Fisher 信息量

1 无偏估计一致最小方差无偏估计