1 从 Bayes 公式谈起
Bayes 统计的基本观点来自 Bayes公式.
现在有金银铜 3 种盒子, 分别有 5、4、3 个, 每个分别放了红蓝黄白四种球, 其中金盒中个数为
; 银盒中为
; 铜盒中为
. 现在随机抽取一个盒子, 再随机抽取一个球, 发现是红的, 则"此球从金盒抽出"的概率为多少?
把这个概率记为 , 则由 Bayes 公式
可以计算出各种可能的情况:

我们可以改变观点, 用一种有统计气味的做法: "由抽出球的颜色, 推断盒子的材料". 根据盒子中球分布的集中程度, 我们可以得到一个推断程序
我们知道统计推断问题是有了样本 , , 用 推断 . 上面的问题就是这种模式. 引入 : 金银铜红黄蓝白 而样本的分布族为
我们现在要根据 推断 . 我们可以把 (1.1) 看作一个估计量:
相比前面的统计推断问题 (我们把它称为频率学派), 这里的不同点是我们有了截图中的那些概率值. 相比 (1.1) 的推断方法, 更为基本和重要; 它告诉我们在种种样本下我们对 了解到了何种程度.
为什么前面的问题没有出现截图中的结果? 这是因为这里 本身就是一个随机变量, 我们也知道 的分布. 这就是 Bayes 统计区别于前面统计的特征所在.
2 先验分布 后验分布
现在样本 有分布族 , 由 推断 .
在前面的推断中, 推断 依赖"分布族"和样本 这两类知识; 在 Bayes 统计中, 它还要求预先给出 取各种可能值的概率. 这在抽样前就要给定, 所以称为先验分布.
参数空间 上的任一概率分布称为 的先验分布.
得到样本 后, 的后验分布就是给定 下的 的条件分布.
设 有分布 , 有先验分布 , 则根据 条件密度公式, 后验密度为 这里分母之和 有关, 和 无关, 因此有时候分母不会写出来.
设
. 给定先验
.
则 这属于 Beta 分布族.
设
,
未知
已知. 给定
.
有了样本 后, 分子整理后为 , 其中 因此 .
Bayes 学派认为, 样本的唯一作用是改变了我们对 的变化. 例如这里第一个例子, 表示我们认为所有可能性都一样大, 是同等无知原则. 得到样本后, 我们知道 更有可能集中在 附近.
或者对第二个例子, 变成了 , 且 (表示变具体了).
事实上 可以替换为一个广义先验密度函数, 它只需要满足:
- ;
- , (2.1) 分母的积分大于 且有限.
事实上对于 , , 只要代换 就行, 没有本质区别. 真正有意义的是 的情形. 下面的例子可以看出广义先验密度的作用.
,
未知. 抽样前, 我们认为
在
上等可能.
此时可以用广义先验密度函数 去刻画. 此时代入 (2.1), 这是 .
3 原则
对 的任何推断/估计/检验必须基于且只能基于 的后验分布.
由此, 矩估计 不适合 Bayes 推断. 在一定(广义)先验分布之下, 极大似然估计适合 Bayes 推断原则.
4 具体实施
4.1 点估计
原则是找后验分布的某个有代表性的特征数字来估计 . 例如均值/中位数, 或者 达到最大的 . 这就是广义极大似然估计.
由于这是分布 , 根据 Beta分布的期望, . MLE 则给出 . 可以把 看作一个 的修正. 不会绝对地给出 的估计, 而是 , . 看起来合理一些.
根据正态分布的性质, 不同方法估计 的结果相同, 都是 .
4.2 假设检验
Bayes 检验可以极大简化假设检验. 具体来说, 对于检验 计算后验概率: 这样检验规则就变得很简单: 时接受 , 时拒绝 , 否则接受或否定都可以.
相比频率学派的假设检验, Bayes 学派没有考虑两种决策的不同后果, 也没有 这样的值用来约束这个. 这只是反映了"推断"和"行动"的区别而已.
后续我们会讨论加入不同行动后果的版本.
设样本
,
. 观察到
. 检验
, 或是
.
根据 这个例子的结果, . 从而 因为 , 所以拒绝 .
. 先验分布
是这样的: 在
集中了概率
, 剩下的
按正态分布
分给
, 也即这上面有概率密度
. 检验
.
如果先验分布的概率全部集中在 , 则 的边缘分布密度为 .
如果先验分布的概率全部按 分配, 则 的边缘分布密度为 这是 . 记右边为 , 而 则 容易算出 其中
注意, 时, 接受域已不和原点对称.
一般来说连续的先验分布不会在某一个点有大于零的概率, 但是 Bayes 学派认为, 只有赋予 一个大于 0 的先验概率, 问题才有意义.
4.3 区间估计
得到后验分布 后, 找到区间 , 使得 其中 为给定的数. 称 为后验置信度, 为 的后验置信度 的区间估计. 一般我们选择一个长度最短的.
, 已知, 为参数. .
则根据前面的例子 , 则区间是 .
, .
则在 这个例子中 我们我们得到 的后验密度, 它先增后减. 可以知道区间估计 满足
, 即 . .
的后验分布为 其中 这里 不是关于 的单峰函数, 因此需要数值解法.
对于其他类型的统计推断问题也是可以处理的, 比如 分解为 时, 从 个命题 中选择其一.
为了解决这个问题, 计算后验分布 , 由此计算命题 的后验概率 . 如果 , 则选择 , 即认为 .
5 先验分布的确定
5.1 客观法
根据历史资料确定的分布.
5.2 主观概率法
这是一种通过自我反省来确定先验分布的方法. 例如如果 , 要确定 和 的概率. 我们可以通过"反省"定下一个数 , 使得任何 都愿意以 的输赢来打赌. 这样 的可能性就是 .
5.3 同等无知原则
如果我们对某个参数一无所知, 一般直接认为它是均匀分布.
当然这个有一些问题, 比如 一无所知, 那 不也一无所知了吗?
5.4 无信息先验分布
例如, 总体分布为 . 这种 为位置参数. 若度量原点由 , 则总体变量的密度变为 . 如果先验分布不依赖原点的选择, 则它在等长区间内的先验概率应该一样.
再比如 , . 这种 为刻度参数. 若把度量单位 , 则密度变为 . 如果先验分布不依赖刻度的选择, 则 , . 这只有在先验分布为 时成立.
从上面例子看出来, 这种方法的思想是, 如果变量总体分布族在某种变换下保持不变, 则先验分布有相应的不变性.
5.5 共轭先验分布
这是一种基于纯数学的选择原则. 定义 为 的一个先验分布族. 如果 和样本 , 后验分布都属于 , 则 是一个共轭先验分布族. 例如由前面的例子, 正态分布族、Beta 分布族都是共轭先验分布族. 下面再看几个例子.
,
已知而
未知. 求
的共轭先验分布族.
首先写出样本的概率密度 . 记 为充分统计量. 然后确定 使 做代换 , 可以求出上述积分值为 . 显然一切 都满足这个要求. 把这个分布记为 , 则密度为 则 为 的一个共轭先验分布族.
若有先验分布 , 则 有后验分布 .
,
都未知. 要确定
的共轭先验分布族.
写出样本的概率密度
观察这个函数可以发现:
- 的边缘分布为 .
- 给定 下, .
以 记 的这样的分布, 其中 的边缘分布为 , . 记 , 则 为 的一个共轭先验分布族. 事实上 的联合密度为 其中 与 都无关. 因为 其中 , 则 (*) 可以改写成 其中 与 都无关. 可以看出它就是 , 属于 .
设总体有 Poisson 分布:
,
,
.
设 来自这个总体分布, 概率函数为 其中 . 回顾 Gamma 分布 . 则它是 的一个共轭先验分布族. 后验为 .
共轭先验分布纯粹是因为数学上的方便, 使得在选择分布、获得较好性质时常常作为合适的候选者, 且计算简便方便.