4.3 有未观测混杂变量下 平均因果效应的敏感性分析
Cornfield型敏感性分析 在给定观测协变量时, 对风险比、二元结果表现最好. 它不够通用. 本节将给出一种基于潜在结果条件期望的、更直接的敏感性估计方法. 它能在敏感性分析框架下处理常用的平均因果效应估计量.
1 介绍
回忆我们观察性实验的经典假设 , 然后关注平均因果效应 分解为 所以根本的难题是估计反事实均值 和 . 一般来说有两种估计的极端策略.
第一个策略就是前面的可忽略性(无混杂变量假设). 假设 这样反事实均值可以估计为
第二个策略就是下面要介绍的. 它没有额外的假设, 除了结果介于 之间. 对二元变量这是自然的. 这样反事实均值也会在 之间. 这说明了 最差情况下的边界.
|
|
|
Lower |
Upper |
Lower |
Upper |
|
|
? |
|
|
|
|
|
|
|
|
|
|
|
|
|
? |
|
|
|
|
|
? |
|
|
|
|
|
|
|
|
|
|
|
|
|
? |
|
|
|
|
|
2 Manski 型无假设的平均因果效应的最坏边界
假设结果在 之间. 从分解 可知 类似地 于是 区间长度是 . 这个界给的信息并不多, 但是比起先验的界 来说还是收窄了一半. 如果没有其他假设, 观测到的数据并不能唯一确定 . 此时我们说 是 部分识别的, 具体定义如下:
参数 是 部分识别的, 如果观测到的数据分布和 的多个值相当.
对比 可识别性 和这里的部分可识别性. 如果参数 被观测到的数据分布唯一确定, 它就是可识别的; 否则是部分可识别的. 因此在可忽略性假设下是可识别的, 但是没了这个假设就是部分可识别的.
3 平均因果效应的敏感性分析
第一个策略 是乐观的, 假设了在观测到的协变量下, 潜在结果和两个组别没关系. 第二个策略 是悲观的, 它不从观测到的结果推测任何反事实均值的信息. 下面的策略介于两者之间.
3.1 识别公式
定义 为敏感性参数. 简化起见, 我们能进一步假设他们是与 无关的常量. 在实际中, 我们需要固定它们, 或者只在一个事先约定好的范围里取值. 回忆 , 分别是实验/对照组的观测结果的条件均值. 则关于反事实均值我们有
给定 , , 我们有 从而
如果拟合了结果回归模型, 则
这里术语 "预测性的" (predictive) 和 "投射性的" (projective) 来自调查采样的文献. 前者尽可能用观测到的结果, 后者则用了拟合的值.
更有趣的是, 我们能通过 IPW 来识别 .
给定 , 我们有 这里
这个定理修改了 IPW公式, 新增了两项 , 它们依赖倾向性得分和敏感性参数. 给定拟合的倾向性得分, 我们有
更有趣的是, 给定拟合的倾向性得分和回归模型, 是 双重稳健 的! 我们可以用 bootstrap 来估计上述估计量的方差.
当 , 上述估计量变回原本定义的回归估计量、IPW 估计量和双重稳健估计量.