5.1 Bayes统计推断

1 从 Bayes 公式谈起

Bayes 统计的基本观点来自 Bayes公式.

相比前面的统计推断问题 (我们把它称为频率学派), 这里的不同点是我们有了截图中的那些概率值. 相比 (1.1) 的推断方法, 更为基本和重要; 它告诉我们在种种样本下我们对 θ 了解到了何种程度.
为什么前面的问题没有出现截图中的结果? 这是因为这里 θ 本身就是一个随机变量, 我们也知道 θ 的分布. 这就是 Bayes 统计区别于前面统计的特征所在.

2 先验分布 后验分布

现在样本 X 有分布族 {Fθ(x)|θΘ}, 由 X 推断 θ.
在前面的推断中, 推断 θ 依赖"分布族"和样本 X 这两类知识; 在 Bayes 统计中, 它还要求预先给出 θ 取各种可能值的概率. 这在抽样前就要给定, 所以称为先验分布.

先验分布 (p(θ))

参数空间 Θ 上的任一概率分布称为 θ先验分布.

后验分布 (p(θ|X=x))

得到样本 X=x 后, θ后验分布就是给定 X=x 下的 θ 的条件分布.

X 有分布 f(x,θ), θ 有先验分布 h(θ), 则根据 条件密度公式, 后验密度为 (2.1)h(θ|x)=f(x,θ)h(θ)Θf(x,φ)h(φ)dφ. 这里分母之和 x 有关, 和 θ 无关, 因此有时候分母不会写出来.

Bayes 学派认为, 样本的唯一作用是改变了我们对 θ 的变化. 例如这里第一个例子, pUniform(0,1) 表示我们认为所有可能性都一样大, 是同等无知原则. 得到样本后, 我们知道 p 更有可能集中在 xn 附近.
或者对第二个例子, aN(μ,τ2) 变成了 a|xN(t,η2), 且 η2<τ2 (表示变具体了).

事实上 h 可以替换为一个广义先验密度函数, 它只需要满足:

事实上对于 Θh(θ)dθ=c, 0<c<, 只要代换 h(θ)c 就行, 没有本质区别. 真正有意义的是 c= 的情形. 下面的例子可以看出广义先验密度的作用.

3 原则

Bayes 统计推断的原则

θ 的任何推断/估计/检验必须基于且只能基于 θ 的后验分布.

由此, 矩估计 不适合 Bayes 推断. 在一定(广义)先验分布之下, 极大似然估计适合 Bayes 推断原则.

4 具体实施

4.1 点估计

原则是找后验分布的某个有代表性的特征数字来估计 θ. 例如均值/中位数, 或者 h(θ|x) 达到最大的 θ^. 这就是广义极大似然估计.

4.2 假设检验

Bayes 检验可以极大简化假设检验. 具体来说, 对于检验 H0:θΘHH1:θΘK. 计算后验概率: pH(x)=P(θΘH|x),pK(x)=P(θΘK|x). 这样检验规则就变得很简单: pH(x)>12 时接受 H, pH(x)<12 时拒绝 H, 否则接受或否定都可以.

相比频率学派的假设检验, Bayes 学派没有考虑两种决策的不同后果, 也没有 α 这样的值用来约束这个. 这只是反映了"推断"和"行动"的区别而已.
后续我们会讨论加入不同行动后果的版本.

一般来说连续的先验分布不会在某一个点有大于零的概率, 但是 Bayes 学派认为, 只有赋予 0 一个大于 0 的先验概率, 问题才有意义.

4.3 区间估计

得到后验分布 P(θ|x) 后, 找到区间 [A(x),B(x)], 使得 P(A(x)θB(x)|x)=1α, 其中 α(0,1) 为给定的数. 称 1α后验置信度, [A(x),B(x)]θ 的后验置信度 1α 的区间估计. 一般我们选择一个长度最短的.

对于其他类型的统计推断问题也是可以处理的, 比如 Θ 分解为 Θ1,,Θk 时, 从 k 个命题 Hi:θΘi 中选择其一.
为了解决这个问题, 计算后验分布 P(θ|x), 由此计算命题 Hi 的后验概率 pi(x)=P(θΘi|x). 如果 pi0=max1ikpi(x), 则选择 Hi, 即认为 θΘi.

5 先验分布的确定

5.1 客观法

根据历史资料确定的分布.

5.2 主观概率法

这是一种通过自我反省来确定先验分布的方法. 例如如果 θ[0,1], 要确定 A:0θ12B:12<θ1 的概率. 我们可以通过"反省"定下一个数 a, 使得任何 ba 都愿意以 1:b 的输赢来打赌. 这样 A 的可能性就是 a1+a.

5.3 同等无知原则

如果我们对某个参数一无所知, 一般直接认为它是均匀分布.
当然这个有一些问题, 比如 p 一无所知, 那 p2 不也一无所知了吗?

5.4 无信息先验分布

例如, 总体分布为 f(xθ). 这种 θ位置参数. 若度量原点由 0c, 则总体变量的密度变为 f(x(θ+c)). 如果先验分布不依赖原点的选择, 则它在等长区间内的先验概率应该一样.
再比如 1θf(xθ), θ>0. 这种 θ刻度参数. 若把度量单位 11c, 则密度变为 1cθf(xcθ). 如果先验分布不依赖刻度的选择, 则 0<a<b,0<c, P(θ[a,b])=P(θ[ca,cb]). 这只有在先验分布为 1{θ>0}θ 时成立.

从上面例子看出来, 这种方法的思想是, 如果变量总体分布族在某种变换下保持不变, 则先验分布有相应的不变性.

5.5 共轭先验分布

这是一种基于纯数学的选择原则. 定义 Fθ 的一个先验分布族. 如果 HF 和样本 x, 后验分布都属于 F, 则 F 是一个共轭先验分布族. 例如由前面的例子, 正态分布族、Beta 分布族都是共轭先验分布族. 下面再看几个例子.

共轭先验分布纯粹是因为数学上的方便, 使得在选择分布、获得较好性质时常常作为合适的候选者, 且计算简便方便.