4.3 有未观测混杂变量下 平均因果效应的敏感性分析

Cornfield型敏感性分析 在给定观测协变量时, 对风险比、二元结果表现最好. 它不够通用. 本节将给出一种基于潜在结果条件期望的、更直接的敏感性估计方法. 它能在敏感性分析框架下处理常用的平均因果效应估计量.

1 介绍

回忆我们观察性实验的经典假设 {Zi,Xi,Yi(1),Yi(0)}i=1ni.i.d{Z,X,Y(1),Y(0)}, 然后关注平均因果效应 τ=E[Y(1)Y(0)]. 分解为τ=[E(Y|Z=1)P(Z=1)+E{Y(1)|Z=0}P(Z=0)][E{Y(0)|Z=1}P(Z=1)+E(Y|Z=0)P(Z=0)]. 所以根本的难题是估计反事实均值 E[Y(1)|Z=0]E[Y(0)|Z=1]. 一般来说有两种估计的极端策略.

第一个策略就是前面的可忽略性(无混杂变量假设). 假设 E[Y(1)|Z=1,X]=E[Y(1)|Z=0,X],E[Y(0)|Z=1,X]=E[Y(0)|Z=0,X]. 这样反事实均值可以估计为E[Y(1)|Z=0]=E{E(Y|Z=1,X)|Z=0},E[Y(0)|Z=1]=E{E(Y|Z=0,X)|Z=1}.
第二个策略就是下面要介绍的. 它没有额外的假设, 除了结果介于 y,y 之间. 对二元变量这是自然的. 这样反事实均值也会在 y,y 之间. 这说明了 τ 最差情况下的边界.

Z Y(1) Y(0) Lower Y(1) Upper Y(1) Lower Y(0) Upper Y(0)
1 Y1(1) ? Y1(1) Y1(1) y y
1 Yn1(1) ? Yn1(1) Yn1(1) y y
0 ? Yn1+1(0) y y Yn1+1(0) Yn1+1(0)
0 ? Yn(0) y y Yn(0) Yn(0)

2 Manski 型无假设的平均因果效应的最坏边界

假设结果在 y,y 之间. 从分解 E[Y(1)]=E{Y(1)|Z=1}P(Z=1)+E{Y(1)|Z=0}P(Z=0), 可知 E[Y(1)][E{Y|Z=1}P(Z=1)+yP(Z=0),E{Y|Z=1}P(Z=1)+yP(Z=0)]. 类似地 E[Y(0)][yP(Z=1)+E{Y|Z=0}P(Z=0),yP(Z=1)+E{Y|Z=0}P(Z=0)]. 于是τ[E{Y|Z=1}P(Z=1)+yP(Z=0)yP(Z=1)E{Y|Z=0}P(Z=0)E{Y|Z=1}P(Z=1)+yP(Z=0)yP(Z=1)E{Y|Z=0}P(Z=0)]. 区间长度是 yy. 这个界给的信息并不多, 但是比起先验的界 [yy,yy] 来说还是收窄了一半. 如果没有其他假设, 观测到的数据并不能唯一确定 τ. 此时我们说 τ部分识别的, 具体定义如下:

部分可识别性

参数 θ部分识别的, 如果观测到的数据分布和 θ 的多个值相当.

对比 可识别性 和这里的部分可识别性. 如果参数 θ 被观测到的数据分布唯一确定, 它就是可识别的; 否则是部分可识别的. 因此在可忽略性假设下是可识别的, 但是没了这个假设就是部分可识别的.

3 平均因果效应的敏感性分析

第一个策略 是乐观的, 假设了在观测到的协变量下, 潜在结果和两个组别没关系. 第二个策略 是悲观的, 它不从观测到的结果推测任何反事实均值的信息. 下面的策略介于两者之间.

3.1 识别公式

定义 E{Y(1)|Z=1,X}E{Y(1)|Z=0,X}=ε1(X),E{Y(0)|Z=1,X}E{Y(0)|Z=0,X}=ε0(X), 为敏感性参数. 简化起见, 我们能进一步假设他们是与 X 无关的常量. 在实际中, 我们需要固定它们, 或者只在一个事先约定好的范围里取值. 回忆 μ1(X)=E(Y|Z=1,X), μ0(X)=E(Y|Z=0,X) 分别是实验/对照组的观测结果的条件均值. 则关于反事实均值我们有

定理 3.1

给定 ε1(X), ε0(X), 我们有E[Y(1)|Z=0]=E[μ1(X)ε1(X)|Z=0],E[Y(0)|Z=0]=E[μ0(X)ε0(X)|Z=1], 从而 (3.1)τ=E[ZY+(1Z)μ1(X)ε1(X)]E[Zμ0(X)ε0(X)+(1Z)Y](3.2)=E[Zμ1(X)+(1Z)μ1(X)ε1(X)]E[Zμ0(X)ε0(X)+(1Z)μ0(X)].

如果拟合了结果回归模型, 则τ^pred={1ni=1nZiYi+1ni=1n(1Zi)μ^1(Xi)ε1(Xi)}{1ni=1nZiμ^0(Xi)ε0(Xi)+1ni=1n(1Zi)Yi},τ^proj={1ni=1nZiμ^1(Xi)+1ni=1n(1Zi)μ^1(Xi)ε1(Xi)}{1ni=1nZiμ^0(Xi)ε0(Xi)+1ni=1n(1Zi)μ^0(Xi)}.
这里术语 "预测性的" (predictive) 和 "投射性的" (projective) 来自调查采样的文献. 前者尽可能用观测到的结果, 后者则用了拟合的值.

更有趣的是, 我们能通过 IPW 来识别 τ.

定理 3.2

给定 ε1(X),ε0(X), 我们有 E[Y(1)]=E[ω1(X)Ze(X)Y],E[Y(0)]=E[ω0(X)1Z1e(X)Y], 这里 ω1(X)=e(X)+1e(X)ε1(X),ω0(X)=e(X)ε0(X)+1e(X).

这个定理修改了 IPW公式, 新增了两项 ω1(X),ω0(X), 它们依赖倾向性得分和敏感性参数. 给定拟合的倾向性得分, 我们有τ^ht=1ni=1n{e^(Xi)ε1(Xi)+1e^(Xi)}ZiYiε1(Xi)e^(Xi)1ni=1n{e^(Xi)ε0(Xi)+1e^(Xi)}(1Zi)Yi1e^(Xi),τ^haj=1ni=1n{e^(Xi)ε1(Xi)+1e^(Xi)}ZiYiε1(Xi)e^(Xi)/i=1nZie^(Xi)1ni=1n{e^(Xi)ε0(Xi)+1e^(Xi)}(1Zi)Yi1e^(Xi)/i=1n1Zi1e^(Xi).
更有趣的是, 给定拟合的倾向性得分和回归模型, τ^dr=τ^ht1ni=1n{Zie^(Xi)}{μ^1(Xi)e^(Xi)ε1(Xi)+μ^0(Xi)ε0(Xi)1e^(Xi)}.双重稳健 的! 我们可以用 bootstrap 来估计上述估计量的方差.
ε1(Xi)=ε0(Xi)=1, 上述估计量变回原本定义的回归估计量、IPW 估计量和双重稳健估计量.