3.2 观察性实验中的倾向得分

在 IID 采样的假设下, 每个实验单元有四个随机变量 {X,Z,Y(1),Y(0)}. 我们可以分解为 P{X,Z,Y(1),Y(0)}=P(X)P(Y(1),Y(0)|X)P(Z|X,Y(1),Y(0)), 这里

一般来说我们不想为协变量建模, 因为它们是在实验处理和结果之前就存在的背景信息. 如果我们要在结果模型外更进一步, 就需要关注实验分配机制.

倾向得分

定义 e(X,Y(1),Y(0))=P(Z=1|X,Y(1),Y(0))倾向得分 (propensity score). 在 强可忽略性 下, e(X,Y(1),Y(0))=P(Z=1|X). 它表示观察到协变量后, 接受实验处理的条件概率.

1 倾向得分作为降维工具

1.1 理论介绍

定理 1.1

如果 Z{Y(1),Y(0)}|X, 则 Z{Y(1),Y(0)}|e(X).

定理说明了在 e(X) 上的条件可以去除 X 带来的所有混杂性; e(X) 将取值从 X 的多维压缩到 01 上的一维值.

1.2 倾向得分分层

定理 1.1 启发我们考虑倾向得分分层. 我们从简单的情形开始, 假设倾向得分的取值在 {e1,,eK} 中, Kn. 则定理 1.1 变为 Z{Y(1),Y(0)}|e(X)=ek,k=1,,K. 因此我们有一个 SRE: K 个独立的 CRE.

一般来说, 倾向得分是未知且非离散的. 我们可以拟合一个 P(Z=1|X) 的模型 (例如 Z|X 的 Logistic 模型) 来获取 e^(X). 例如取各个分位数 ek: Z{Y(1),Y(0)}|e^(X)=ek,k=1,,K.

关于 K 的取值, 小的话精度不够, 大的话每层数据不够, 一般来说取 K=5 比较合适.

2 倾向得分加权

2.1 理论介绍

定理 2.1

如果 Z{Y(1),Y(0)}|X 以及 0<e(X)<1, 则 E[Y(1)]=E[ZYe(X)],E[Y(0)]=E[(1Z)Y1e(X)], 以及 τ=E[Y(1)Y(0)]=E[ZYe(X)(1Z)Y1e(X)].

从这个定理看出, 仅需一个权重 e(X) (也称它为 重合度), 就可以通过总体来得到不同组的期望.

2.2 逆倾向得分加权估计量

受定理 2.1 启发, 我们用下面的估计量来估计平均因果效应 τ^ht=1ni=1nZiYie^(Xi)1ni=1n(1Zi)Yi1e^(Xi), 这里 e^(Xi) 是估计的倾向得分. 我们把它称为逆倾向得分加权估计量 (Inverse propensity score weighting, IPW), 也被称为 Horvitz-Thompson (HT) 估计量. 当然它有很多问题:

HT 估计量缺少不变性

如果改变 YiYi+c, 则 τ^ht 变为 τ^ht+c(1^T1^C), 这里 1^T=1ni=1nZie^(Xi),1^C=1ni=1n1Zi1e^(Xi) 可以看作两个 1 的估计量.

通常来说在有限样本下 1^T1^C0, 尽管它们的期望是. 这个命题就说明 HT 估计量并不合理, 因为所有结果都加了 c, 因果效应不应该关于 c 改变. 一个简单的修复就是对 1^T,1^C 进行标准化: τ^hajek=i=1nZiYie^(Xi)i=1nZie^(Xi)i=1n(1Zi)Yi1e^(Xi)i=1n1Zi1e^(Xi). 它在 YiYi+c 下不会改变, 并且实验证明在有限样本下它比 τ^ht 更稳定.

2.3 的一个问题

很多渐近分析要求强重合度条件: 0αLe(X)αU<1, 也就是真正的倾向得分被严格控制在 (0,1) 之间. 不过这是一个相当强的假设. 即使它成立, 估计出来的倾向得分也会接近 01. 此时加权估计量会直接趋于无穷, 因此在有限样本中相当不稳定. 我们可以进行截断 max[αL,min{e^(Xi),αU}], 或者将 e^(Xi) 超出 [αL,αU] 的单元去掉. 一般来说可以取 (αL,αU)=(0.1,0.9) 或者 (0.05,0.95).

3 倾向得分的平衡特性

3.1 理论介绍

定理 3.1

倾向得分满足 ZX|e(X). 此外, 对于任何函数 h(), 我们有 (3.1)E[Zh(X)e(X)]=E[(1Z)h(X)1e(X)]. (前提是确实良定).

这个定理不要求可忽略性, 只关于 Z,X. 它说明了在 e(X) 下我们可以将两个总体拉到互相平衡, 是个很好的结果.

3.2 检查协变量的平衡性

在拿到结果前, 我们都要检查是否倾向得分模型足够合理, 让协变量在数据中平衡.
在倾向得分分层中, 我们用了 e^(X): ZX|e^(X)=ek, k=1,,K, 因此我们能检查协变量分布在不同倾向得分分层的实验/对照组中是否相同.
在加权中, 我们可以把 h(X) 看作一个假结果, 并估计 h(X) 下的平均因果效应. 因为真正的 h(X) 上的平均因果效应为 0, 估计结果不能显著远离 0. 一个典型的取法是 h(X)=X.