3.3 估计平均因果效应的双重稳健或增强IPW估计量
在 可忽略性 和 重合度 下, 3.2 观察性实验中的倾向得分 给了 的两个公式. 首先 这里 是实验/对照组下结果的条件期望.
其次是 IPW 这里 是倾向得分.
- 结果回归估计量要求在给定处理和协变量下, 为结果拟合一个模型. 如果结果模型设定正确, 估计量就是一致的.
- IPW 则在给定协变量下, 为处理变量拟合一个模型. 只要倾向得分模型正确, 估计量也是一致的.
- 我们可以把 (0.1), (0.2) 进行多种组合, 推导出平均因果效应的不同识别公式. 这种组合只要求倾向得分/结果模型有一者被正确设定, 因此被称为 双重稳定 的.
1 双重稳健估计量
1.1 总体版本
我们为结果 和 的条件均值假定一个模型. 如果模型正确, 则 , . 我们假设一个倾向得分的模型 , 如果正确则 . 实际中两个模型都有可能有错.
定义 也可以写成
(1.1) 通过对残差进行逆倾向得分加权, 来加强回归估计量; (1.2) 通过引入填补结果 (imputed outcomes) 来增强 IPW 估计量. 因此, 双重稳健估计量也被称为 增强逆倾向得分加权估计量 (AIPW).
这个加强操作的理论作用如下:
{ #270}
aa 9
{ #23}
eaad
假设可忽略性 和重合度 .
- 如果 或 , 则 .
- 如果 或 , 则 .
- 如果 或 , 则 .
可见 只需要倾向得分或者结果回归模型有一个对就行, 所以是双重稳健的!
我们只证 的结果。我们有定义塔式法则可忽略性 则如果 或者 , 就有 .
1.2 样本版本
基于 , 我们可以按如下步骤得到一个双重稳定的 的估计量 :
- 得到拟合的倾向得分 ;
- 得到拟合的结果均值 和 ;
- 构造 , 这里
根据定义, 我们也可以改写为 和 (1.2) 对应, 我们也能写成
2 双重稳健估计量的更多想法和理论
我们接下来提供两种直观的角度来理解 (1.1). 这里只关心 的估计, 因为 的是类似的.
2.1 减小 IPW 估计量的方差
的 IPW 估计量基于 . 它完全忽视了 的结果模型. 虽然它可以不假设任何结果模型, 但是如果协变量对于结果有预测性, 则基于可行模型的残差, 通常比结果有一个更小的方差, 即使这个可行的模型是错的. 假设有一个可能错误的模型 , 有一个显然的分解 如果在上式的第一项 中用 IPW 作为实验处理的 "假的潜在结果", 我们能改写为 这是成立的, 如果倾向得分模型正确 (无需假设结果模型正确).
2.2 减少结果回归模型的偏差
同样地我们看一个结果回归估计量 . 它的偏差是 , 可以用 IPW 估计量 来估计, 如果倾向得分模型正确. 所以去掉偏差的版本就是 .
3 额外的说明
回顾 定理1.1的证明. 双重稳健的关键是这个乘积 这一结构是"双重稳健"的, 但也可能是"双重脆弱"的. 如果两个模型都错误, 那乘积就会把错误放大.
不过总的来说, 双重稳健估计量一直是因果推断的标准策略.
最近也有人提出 双重机器学习 (DML), 来将 Logistic 回归、线性回归估计 替换掉.