5.1 Bayes统计推断

#BayesianInference #BayesFormula #MLE #HypothesisTesting #ConfidenceInterval #NormalDistribution #ConjugatePrior

1 从 Bayes 公式谈起

Bayes 统计的基本观点来自 Bayes公式.

现在有金银铜 3 种盒子, 分别有 5、4、3 个, 每个分别放了红蓝黄白四种球, 其中金盒中个数为

(70, 20, 8, 2)

; 银盒中为

(10, 75, 3, 12)

; 铜盒中为

(5, 12, 80, 3)

. 现在随机抽取一个盒子, 再随机抽取一个球, 发现是红的, 则"此球从金盒抽出"的概率为多少?

把这个概率记为 $P (金 | 红)$ , 则由 Bayes 公式 $P (金 | 红) = \frac{\frac{5}{12} \cdot \frac{70}{100}}{\frac{5}{12} \cdot \frac{70}{100} + \frac{4}{12} \cdot \frac{10}{100} + \frac{3}{12} \cdot \frac{5}{100}} = \frac{70}{81} .$
可以计算出各种可能的情况:
Pasted image 20251227194533.png
我们可以改变观点, 用一种有统计气味的做法: "由抽出球的颜色, 推断盒子的材料". 根据盒子中球分布的集中程度, 我们可以得到一个推断程序 $\begin{matrix} (1.1) & 红 \to 金, 黄 \to 银, 蓝 \to 铜, 白 \to 银 . \end{matrix}$
我们知道统计推断问题是有了样本 $X$ , ${F_{θ} (x) | θ \in Θ}$ , 用 $X$ 推断 $θ$ . 上面的问题就是这种模式. 引入 $X, θ$ : $\begin{aligned} θ (金) = 1, θ (银) = 2, θ (铜) = 3, \\ Θ = {1, 2, 3}, \\ X (红) = 1, X (黄) = 2, X (蓝) = 3, X (白) = 4, \\ X = {1, 2, 3, 4}, \end{aligned}$ 而样本的分布族为 $\begin{aligned} F_{1} (1) & = \frac{70}{100}, F_{1} (2) = \frac{20}{100}, F_{1} (3) = \frac{8}{100}, F_{1} (4) = \frac{2}{100}; \\ F_{2} (1) & = \frac{10}{100}, F_{2} (2) = \frac{75}{100}, F_{2} (3) = \frac{3}{100}, F_{2} (4) = \frac{12}{100}; \\ F_{3} (1) & = \frac{5}{100}, F_{3} (2) = \frac{12}{100}, F_{3} (3) = \frac{80}{100}, F_{3} (4) = \frac{3}{100} . \end{aligned}$
我们现在要根据 $X$ 推断 $θ$ . 我们可以把 (1.1) 看作一个估计量: $\hat{θ} (1) = 1, \hat{θ} (2) = \hat{θ} (4) = 2, \hat{θ} (3) = 3.$

相比前面的统计推断问题 (我们把它称为频率学派), 这里的不同点是我们有了截图中的那些概率值. 相比 (1.1) 的推断方法, 更为基本和重要; 它告诉我们在种种样本下我们对 $θ$ 了解到了何种程度.
为什么前面的问题没有出现截图中的结果? 这是因为这里 $θ$ 本身就是一个随机变量, 我们也知道 $θ$ 的分布. 这就是 Bayes 统计区别于前面统计的特征所在.

2 先验分布后验分布

现在样本 $X$ 有分布族 ${F_{θ} (x) | θ \in Θ}$ , 由 $X$ 推断 $θ$ .
在前面的推断中, 推断 $θ$ 依赖"分布族"和样本 $X$ 这两类知识; 在 Bayes 统计中, 它还要求预先给出 $θ$ 取各种可能值的概率. 这在抽样前就要给定, 所以称为先验分布.

先验分布 (

p (θ)

)

参数空间 $Θ$ 上的任一概率分布称为 $θ$ 的先验分布.

后验分布 (

p (θ | X = x)

)

得到样本 $X = x$ 后, $θ$ 的后验分布就是给定 $X = x$ 下的 $θ$ 的条件分布.

设 $X$ 有分布 $f (x, θ)$ , $θ$ 有先验分布 $h (θ)$ , 则根据条件密度公式, 后验密度为 $\begin{matrix} (2.1) & h (θ | x) = \frac{f (x, θ) h (θ)}{\int_{Θ} f (x, φ) h (φ) d φ} . \end{matrix}$ 这里分母之和 $x$ 有关, 和 $θ$ 无关, 因此有时候分母不会写出来.

设

X \sim Binomial (n, p)

. 给定先验

p \sim Uniform (0, 1)

则 $h (p | x) = c_{x} (\binom{n}{x}) p^{x} (1 - p)^{n - x} = c_{x}^{*} p^{x} (1 - p)^{n - x} .$ 这属于 Beta 分布族.

设

X_{1}, \dots, X_{n} \sim N (a, σ^{2})

a

未知

σ

已知. 给定

a \sim N (μ, τ^{2})

有了样本 $x = (x_{1}, \dots, x_{n})$ 后, $h (a | x) = \frac{{(\frac{1}{\sqrt{2 π} σ})}^{n} \exp (- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - a)^{2}) \frac{1}{\sqrt{2 π} τ} \exp (- \frac{(a - μ)^{2}}{2 τ^{2}})}{\int_{- \infty}^{\infty} {(\frac{1}{\sqrt{2 π} σ})}^{n} \exp (- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - a)^{2}) \frac{1}{\sqrt{2 π} τ} \exp (- \frac{(a - μ)^{2}}{2 τ^{2}}) d a} .$ 分子整理后为 $c_{x, σ} \exp (- \frac{(a - t)^{2}}{2 η^{2}})$ , 其中 $t = \frac{\frac{n}{σ^{2}} \overset{―}{X} + \frac{1}{τ^{2}} μ}{\frac{n}{σ^{2}} + \frac{1}{τ^{2}}}, η^{2} = \frac{1}{\frac{n}{σ^{2}} + \frac{1}{τ^{2}}} = \frac{σ^{2} τ^{2}}{n τ^{2} + σ^{2}} < τ^{2} .$ 因此 $a | x \sim N (t, η^{2})$ .

Bayes 学派认为, 样本的唯一作用是改变了我们对 $θ$ 的变化. 例如这里第一个例子, $p \sim Uniform (0, 1)$ 表示我们认为所有可能性都一样大, 是同等无知原则. 得到样本后, 我们知道 $p$ 更有可能集中在 $\frac{x}{n}$ 附近.
或者对第二个例子, $a \sim N (μ, τ^{2})$ 变成了 $a | x \sim N (t, η^{2})$ , 且 $η^{2} < τ^{2}$ (表示变具体了).

事实上 $h$ 可以替换为一个广义先验密度函数, 它只需要满足:

$h (θ) \geq 0, \forall θ \in Θ$ ;
$\forall x$ , (2.1) 分母的积分大于 $0$ 且有限.

事实上对于 $\int_{Θ} h (θ) d θ = c$ , $0 < c < \infty$ , 只要代换 $\frac{h (θ)}{c}$ 就行, 没有本质区别. 真正有意义的是 $c = \infty$ 的情形. 下面的例子可以看出广义先验密度的作用.

X_{1}, \dots, X_{n} \sim N (θ, 1)

θ

未知. 抽样前, 我们认为

θ

在

(- \infty, \infty)

上等可能.

此时可以用广义先验密度函数 $h (θ) \equiv 1$ 去刻画. 此时代入 (2.1), $h (θ | x) = \sqrt{\frac{n}{2 π}} \exp (- \frac{n (\overset{―}{x} - θ)^{2}}{2}),$ 这是 $N (\overset{―}{x}, \frac{1}{n})$ .

3 原则

Bayes 统计推断的原则

对 $θ$ 的任何推断/估计/检验必须基于且只能基于 $θ$ 的后验分布.

由此, 矩估计不适合 Bayes 推断. 在一定(广义)先验分布之下, 极大似然估计适合 Bayes 推断原则.

4 具体实施

4.1 点估计

原则是找后验分布的某个有代表性的特征数字来估计 $θ$ . 例如均值/中位数, 或者 $h (θ | x)$ 达到最大的 $\hat{θ}$ . 这就是广义极大似然估计.

考虑这个例子.

由于这是分布 $Beta (x + 1, n + 1 - x)$ , 根据 Beta分布的期望, $\overset{―}{p} = \frac{x + 1}{n + 2}$ . MLE 则给出 $\hat{p} = \frac{x}{n}$ . 可以把 $\overset{―}{p}$ 看作一个 $\hat{p}$ 的修正. $\overset{―}{p}$ 不会绝对地给出 $0 / 1$ 的估计, 而是 $\frac{1}{n + 2}$ , $\frac{n + 1}{n + 2}$ . 看起来合理一些.

考虑这个例子.

根据正态分布的性质, 不同方法估计 $a$ 的结果相同, 都是 $t$ .

4.2 假设检验

Bayes 检验可以极大简化假设检验. 具体来说, 对于检验 $H_{0} : θ \in Θ_{H} \leftrightarrow H_{1} : θ \in Θ_{K} .$ 计算后验概率: $p_{H} (x) = P (θ \in Θ_{H} | x), p_{K} (x) = P (θ \in Θ_{K} | x) .$ 这样检验规则就变得很简单: $p_{H} (x) > \frac{1}{2}$ 时接受 $H$ , $p_{H} (x) < \frac{1}{2}$ 时拒绝 $H$ , 否则接受或否定都可以.

相比频率学派的假设检验, Bayes 学派没有考虑两种决策的不同后果, 也没有 $α$ 这样的值用来约束这个. 这只是反映了"推断"和"行动"的区别而已.
后续我们会讨论加入不同行动后果的版本.

设样本

X \sim N (θ, 100)

θ \sim N (100, 225)

. 观察到

X = 115

. 检验

H_{0} : 90 \leq θ \leq 110

, 或是

H_{1} : θ < 90 or θ > 110

根据这个例子的结果, $θ | X = 115 \sim N (110.38, 69.23)$ . 从而 $p_{H} (115) = \frac{1}{\sqrt{2 π} \sqrt{69.23}} \int_{90}^{110} \exp {(- \frac{(θ - 110.38)^{2}}{138.46})}^{2} d θ = 0.473 .$ 因为 $p_{H} (115) < \frac{1}{2}$ , 所以拒绝 $H_{0}$ .

x \sim N (θ, 1)

. 先验分布

H

是这样的: 在

θ = 0

集中了概率

p_{0}

, 剩下的

1 - p_{0}

按正态分布

N (μ, τ^{2})

分给

R^{*}

, 也即这上面有概率密度

(1 - p_{0}) \frac{1}{\sqrt{2 π} τ} \exp (- \frac{(θ - μ)^{2}}{2 τ^{2}})

. 检验

H_{0} : θ = 0 \leftrightarrow H_{1} : θ \neq 0

如果先验分布的概率全部集中在 $θ = 0$ , 则 $X$ 的边缘分布密度为 $\frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2}}$ .
如果先验分布的概率全部按 $N (μ, τ^{2})$ 分配, 则 $X$ 的边缘分布密度为 $\int_{- \infty}^{\infty} \frac{1}{\sqrt{2 π}} e^{- \frac{(x - θ)^{2}}{2}} \frac{1}{\sqrt{2 π} τ} e^{- \frac{(θ - μ)^{2}}{2 τ^{2}}} d θ = \frac{1}{\sqrt{2 π (1 + τ^{2})}} \exp (- \frac{(x - μ)^{2}}{2 (1 + τ^{2})}),$ 这是 $N (μ, 1 + τ^{2})$ . 记右边为 $g (x)$ , 而 $m (x) = p_{0} \frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2}} + (1 - p_{0}) g (x),$ 则 $\begin{aligned} p_{H_{0}} (x) = P (θ = 0 | x) = \frac{p_{0} \frac{1}{\sqrt{2 π}} e^{- \frac{x^{2}}{2}}}{m (x)}, \\ p_{H_{1}} (x) = P (θ \neq 0 | x) = \frac{(1 - p_{0}) g (x)}{m (x)} . \end{aligned}$ 容易算出 $p_{H_{0}} (x) > p_{H_{1}} (x) ⟺ | x + \frac{μ}{τ^{2}} | < A,$ 其中 $A^{2} = \frac{2 (2 + τ^{2})}{τ^{2}} (\frac{μ^{2}}{2 τ^{2}} + \frac{1}{2} \ln (1 + τ^{2}) + \ln \frac{p_{0}}{1 - p_{0}}) .$

注意, $μ \neq 0$ 时, 接受域已不和原点对称.

一般来说连续的先验分布不会在某一个点有大于零的概率, 但是 Bayes 学派认为, 只有赋予 $0$ 一个大于 0 的先验概率, 问题才有意义.

4.3 区间估计

得到后验分布 $P (θ | x)$ 后, 找到区间 $[A (x), B (x)]$ , 使得 $P (A (x) \leq θ \leq B (x) | x) = 1 - α,$ 其中 $α \in (0, 1)$ 为给定的数. 称 $1 - α$ 为后验置信度, $[A (x), B (x)]$ 为 $θ$ 的后验置信度 $1 - α$ 的区间估计. 一般我们选择一个长度最短的.

例子

$X_{1}, \dots, X_{n} \sim N (θ, σ^{2})$ , $σ^{2} > 0$ 已知, $θ$ 为参数. $θ \sim N (μ, τ^{2})$ .
则根据前面的例子 $θ | X_{1}, \dots, X_{n} \sim N (t, η^{2})$ , 则区间是 $[t - η u_{\frac{α}{2}}, t + η u_{\frac{α}{2}}]$ .

$X \sim Binomial (n, p)$ , $p \sim Uniform (0, 1)$ .
则在这个例子中我们我们得到 $p$ 的后验密度, 它先增后减. 可以知道区间估计 $[p_{1} (x), p_{2} (x)]$ 满足 $\begin{aligned} p_{1}^{x} (1 - p_{1})^{n - x} = p_{2}^{x} (1 - p_{2})^{n - x}, \\ \int_{p_{1}}^{p_{2}} p^{x} (1 - p)^{n - x} d p = (1 - α) Beta (x + 1, n + 1 - x) . \end{aligned}$

$X_{1}, \dots, X_{n} \sim Cauchy$ , 即 $f (x, θ) = \frac{1}{π [1 + (x - θ)^{2}]}$ . $θ \sim N (0, 1)$ .
$θ$ 的后验分布为 $h (θ | x) = c_{x} e^{- \frac{θ^{2}}{2}} \prod_{i = 1}^{n} [1 + (x_{i} - θ)^{2}]^{- 1},$ 其中 $c_{x} = {(\int_{- \infty}^{\infty} e^{- \frac{θ^{2}}{2}} \prod_{i = 1}^{n} [1 + (x_{i} - θ)^{2}]^{- 1} d θ)}^{- 1} .$ 这里 $h (θ | x)$ 不是关于 $θ$ 的单峰函数, 因此需要数值解法.

对于其他类型的统计推断问题也是可以处理的, 比如 $Θ$ 分解为 $Θ_{1}, \dots, Θ_{k}$ 时, 从 $k$ 个命题 $H_{i} : θ \in Θ_{i}$ 中选择其一.
为了解决这个问题, 计算后验分布 $P (θ | x)$ , 由此计算命题 $H_{i}$ 的后验概率 $p_{i} (x) = P (θ \in Θ_{i} | x)$ . 如果 $p_{i_{0}} = max_{1 \leq i \leq k} p_{i} (x)$ , 则选择 $H_{i}$ , 即认为 $θ \in Θ_{i}$ .

5 先验分布的确定

5.1 客观法

根据历史资料确定的分布.

5.2 主观概率法

这是一种通过自我反省来确定先验分布的方法. 例如如果 $θ \in [0, 1]$ , 要确定 $A : 0 \leq θ \leq \frac{1}{2}$ 和 $B : \frac{1}{2} < θ \leq 1$ 的概率. 我们可以通过"反省"定下一个数 $a$ , 使得任何 $b \leq a$ 都愿意以 $1 : b$ 的输赢来打赌. 这样 $A$ 的可能性就是 $\frac{a}{1 + a}$ .

5.3 同等无知原则

如果我们对某个参数一无所知, 一般直接认为它是均匀分布.
当然这个有一些问题, 比如 $p$ 一无所知, 那 $p^{2}$ 不也一无所知了吗?

5.4 无信息先验分布

例如, 总体分布为 $f (x - θ)$ . 这种 $θ$ 为位置参数. 若度量原点由 $0 \to - c$ , 则总体变量的密度变为 $f (x - (θ + c))$ . 如果先验分布不依赖原点的选择, 则它在等长区间内的先验概率应该一样.
再比如 $\frac{1}{θ} f (\frac{x}{θ})$ , $θ > 0$ . 这种 $θ$ 为刻度参数. 若把度量单位 $1 \to \frac{1}{c}$ , 则密度变为 $\frac{1}{c θ} f (\frac{x}{c θ})$ . 如果先验分布不依赖刻度的选择, 则 $\forall 0 < a < b, 0 < c$ , $P (θ \in [a, b]) = P (θ \in [c a, c b])$ . 这只有在先验分布为 $\frac{1 {θ > 0}}{θ}$ 时成立.

从上面例子看出来, 这种方法的思想是, 如果变量总体分布族在某种变换下保持不变, 则先验分布有相应的不变性.

5.5 共轭先验分布

这是一种基于纯数学的选择原则. 定义 $F$ 为 $θ$ 的一个先验分布族. 如果 $\forall H \in F$ 和样本 $x$ , 后验分布都属于 $F$ , 则 $F$ 是一个共轭先验分布族. 例如由前面的例子, 正态分布族、Beta 分布族都是共轭先验分布族. 下面再看几个例子.

X_{1}, \dots, X_{n} \sim N (a, σ^{2})

a

已知而

σ

未知. 求

σ

的共轭先验分布族.

首先写出样本的概率密度 $(2 π)^{- \frac{n}{2}} σ^{- n} \exp (- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - a)^{2})$ . 记 $T = \sum_{i = 1}^{n} (x_{i} - a)^{2}$ 为充分统计量. 然后确定 $d > 0$ 使 $0 < \int_{0}^{\infty} σ^{- d} \exp (- \frac{T}{2 σ^{2}}) d σ < \infty .$ 做代换 $x = \frac{T}{2 σ^{2}}$ , 可以求出上述积分值为 $\frac{Γ (\frac{d - 1}{2})}{2 {(\frac{T}{2})}^{\frac{d - 1}{2}}}$ . 显然一切 $d > 1$ 都满足这个要求. 把这个分布记为 $D (d, T)$ , 则密度为 $1 {σ > 0} \frac{2 b^{\frac{d - 1}{2}}}{Γ (\frac{d - 1}{2}) σ^{d}} \exp (- \frac{b}{σ^{2}}) .$ 则 ${D (d, b) | d > 1, b > 0}$ 为 $σ$ 的一个共轭先验分布族.
$σ$ 若有先验分布 $D (d, b)$ , 则 $σ$ 有后验分布 $D (d + n, b + \frac{T}{2})$ .

X_{1}, \dots, X_{n} \sim N (a, σ^{2})

a, σ

都未知. 要确定

(a, σ)

的共轭先验分布族.

写出样本的概率密度 $(2 π)^{- \frac{n}{2}} σ^{- n} \exp (- \frac{T}{2 σ^{2}}) \exp (- \frac{n (\overset{―}{x} - a)^{2}}{2 σ^{2}}) .$
观察这个函数可以发现:

$σ$ 的边缘分布为 $D (n, \frac{T}{2})$ .
给定 $σ$ 下, $a | σ \sim N (a, \frac{σ^{2}}{n})$ .

以 $G (d, b, μ, τ)$ 记 $(a, σ)$ 的这样的分布, 其中 $σ$ 的边缘分布为 $D (d, b)$ , $a | σ \sim N (μ, \frac{σ^{2}}{τ})$ . 记 $F = {G (d, b, μ, τ) | d > 1, b > 0, τ > 0}$ , 则 $F$ 为 $(a, σ)$ 的一个共轭先验分布族. 事实上 $(a, σ, X_{1}, \dots, X_{n})$ 的联合密度为 $\begin{matrix} (*) & C σ^{- d} \exp (- \frac{b}{σ^{2}}) σ^{- 1} \exp (- \frac{τ (a - μ)^{2}}{2 σ^{2}}) σ^{- n} \exp (- \frac{1}{2 σ^{2}} \sum_{i = 1}^{n} (x_{i} - a)^{2}), \end{matrix}$ 其中 $C$ 与 $a, σ$ 都无关. 因为 $τ (a - μ)^{2} + \sum_{i = 1}^{n} (x_{i} - a)^{2} = (n + τ) (a - t)^{2} + \frac{n τ (\overset{―}{x} - μ)^{2}}{n + τ} + T,$ 其中 $t = \frac{n \overset{―}{x} + τ μ}{n + τ}$ , 则 (*) 可以改写成 $C_{1} σ^{- (d + n - 1)} \exp [- \frac{b + \frac{T}{2} + \frac{n τ (\overset{―}{x} - μ)^{2}}{n + τ}}{σ^{2}}] \frac{\sqrt{n + τ}}{\sqrt{2 π} σ} \exp (- \frac{(a - t)^{2} (n + τ)}{2 σ^{2}}),$ 其中 $C_{1}$ 与 $a, σ$ 都无关. 可以看出它就是 $G (d + n - 1, b + \frac{T}{2}, t, \frac{σ^{2}}{n + τ})$ , 属于 $F$ .

设总体有 Poisson 分布:

p_{θ} (x) = \frac{e^{- θ} θ^{x}}{x!}

x \in N

θ > 0

设 $X_{1}, \dots, X_{n}$ 来自这个总体分布, 概率函数为 $\prod_{i = 1}^{n} \frac{e^{- θ} θ^{x_{i}}}{x_{i}!} = \frac{e^{- n θ} θ^{S}}{x_{1}! \dots x_{n}!},$ 其中 $S = \sum_{i = 1}^{n} x_{i}$ . 回顾 Gamma 分布 $\frac{a^{b}}{Γ (b)} x^{b - 1} e^{- a x} 1 {x > 0}$ . 则它是 $θ$ 的一个共轭先验分布族. 后验为 $Gamma (a + n, b + S)$ .

共轭先验分布纯粹是因为数学上的方便, 使得在选择分布、获得较好性质时常常作为合适的候选者, 且计算简便方便.

1 从 Bayes 公式谈起

2 先验分布 后验分布

3 原则

4 具体实施

4.1 点估计

4.2 假设检验

4.3 区间估计

5 先验分布的确定

5.1 客观法

5.2 主观概率法

5.3 同等无知原则

5.4 无信息先验分布

5.5 共轭先验分布

2 先验分布后验分布