4.3 有未观测混杂变量下平均因果效应的敏感性分析

#Confoundness #SensitivityAnalysis #ObservationalStudy #IPW #OutcomeRegression #DoublyRobust

Cornfield型敏感性分析在给定观测协变量时, 对风险比、二元结果表现最好. 它不够通用. 本节将给出一种基于潜在结果条件期望的、更直接的敏感性估计方法. 它能在敏感性分析框架下处理常用的平均因果效应估计量.

1 介绍

回忆我们观察性实验的经典假设 ${Z_{i}, X_{i}, Y_{i} (1), Y_{i} (0)}_{i = 1}^{n} \overset{i . i . d}{\sim} {Z, X, Y (1), Y (0)}$ , 然后关注平均因果效应 $τ = E [Y (1) - Y (0)] .$ 分解为 $\begin{aligned} τ = & [E (Y | Z = 1) P (Z = 1) + E {Y (1) | Z = 0} P (Z = 0)] \\ - & [E {Y (0) | Z = 1} P (Z = 1) + E (Y | Z = 0) P (Z = 0)] . \end{aligned}$ 所以根本的难题是估计反事实均值 $E [Y (1) | Z = 0]$ 和 $E [Y (0) | Z = 1]$ . 一般来说有两种估计的极端策略.

第一个策略就是前面的可忽略性(无混杂变量假设). 假设 $\begin{aligned} E [Y (1) | Z = 1, X] = E [Y (1) | Z = 0, X], \\ E [Y (0) | Z = 1, X] = E [Y (0) | Z = 0, X] . \end{aligned}$ 这样反事实均值可以估计为 $\begin{aligned} E [Y (1) | Z = 0] = E {E (Y | Z = 1, X) | Z = 0}, \\ E [Y (0) | Z = 1] = E {E (Y | Z = 0, X) | Z = 1} . \end{aligned}$
第二个策略就是下面要介绍的. 它没有额外的假设, 除了结果介于 $\underset{―}{y}, \overset{―}{y}$ 之间. 对二元变量这是自然的. 这样反事实均值也会在 $\underset{―}{y}, \overset{―}{y}$ 之间. 这说明了 $τ$ 最差情况下的边界.

$Z$	$Y (1)$	$Y (0)$	Lower $Y (1)$	Upper $Y (1)$	Lower $Y (0)$	Upper $Y (0)$
$1$	$Y_{1} (1)$	?	$Y_{1} (1)$	$Y_{1} (1)$	$\underset{―}{y}$	$\overset{―}{y}$
$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$
$1$	$Y_{n_{1}} (1)$	?	$Y_{n_{1}} (1)$	$Y_{n_{1}} (1)$	$\underset{―}{y}$	$\overset{―}{y}$
$0$	?	$Y_{n_{1} + 1} (0)$	$\underset{―}{y}$	$\overset{―}{y}$	$Y_{n_{1} + 1} (0)$	$Y_{n_{1} + 1} (0)$
$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$	$⋮$
$0$	?	$Y_{n} (0)$	$\underset{―}{y}$	$\overset{―}{y}$	$Y_{n} (0)$	$Y_{n} (0)$

2 Manski 型无假设的平均因果效应的最坏边界

假设结果在 $\underset{―}{y}, \overset{―}{y}$ 之间. 从分解 $E [Y (1)] = E {Y (1) | Z = 1} P (Z = 1) + E {Y (1) | Z = 0} P (Z = 0),$ 可知 $\begin{aligned} E [Y (1)] \in [ & E {Y | Z = 1} P (Z = 1) + \underset{―}{y} P (Z = 0), \\ E {Y | Z = 1} P (Z = 1) + \overset{―}{y} P (Z = 0)] . \end{aligned}$ 类似地 $\begin{aligned} E [Y (0)] \in [ & \underset{―}{y} P (Z = 1) + E {Y | Z = 0} P (Z = 0), \\ \overset{―}{y} P (Z = 1) + E {Y | Z = 0} P (Z = 0)] . \end{aligned}$ 于是 $\begin{aligned} τ \in [ & E {Y | Z = 1} P (Z = 1) + \underset{―}{y} P (Z = 0) - \overset{―}{y} P (Z = 1) - E {Y | Z = 0} P (Z = 0) \\ E {Y | Z = 1} P (Z = 1) + \overset{―}{y} P (Z = 0) - \underset{―}{y} P (Z = 1) - E {Y | Z = 0} P (Z = 0)] . \end{aligned}$ 区间长度是 $\overset{―}{y} - \underset{―}{y}$ . 这个界给的信息并不多, 但是比起先验的界 $[\underset{―}{y} - \overset{―}{y}, \overset{―}{y} - \underset{―}{y}]$ 来说还是收窄了一半. 如果没有其他假设, 观测到的数据并不能唯一确定 $τ$ . 此时我们说 $τ$ 是 部分识别的, 具体定义如下:

部分可识别性

参数 $θ$ 是 部分识别的, 如果观测到的数据分布和 $θ$ 的多个值相当.

对比可识别性和这里的部分可识别性. 如果参数 $θ$ 被观测到的数据分布唯一确定, 它就是可识别的; 否则是部分可识别的. 因此在可忽略性假设下是可识别的, 但是没了这个假设就是部分可识别的.

3 平均因果效应的敏感性分析

第一个策略是乐观的, 假设了在观测到的协变量下, 潜在结果和两个组别没关系. 第二个策略是悲观的, 它不从观测到的结果推测任何反事实均值的信息. 下面的策略介于两者之间.

3.1 识别公式

定义 $\frac{E {Y (1) | Z = 1, X}}{E {Y (1) | Z = 0, X}} = ε_{1} (X), \frac{E {Y (0) | Z = 1, X}}{E {Y (0) | Z = 0, X}} = ε_{0} (X),$ 为敏感性参数. 简化起见, 我们能进一步假设他们是与 $X$ 无关的常量. 在实际中, 我们需要固定它们, 或者只在一个事先约定好的范围里取值. 回忆 $μ_{1} (X) = E (Y | Z = 1, X)$ , $μ_{0} (X) = E (Y | Z = 0, X)$ 分别是实验/对照组的观测结果的条件均值. 则关于反事实均值我们有

定理 3.1

给定 $ε_{1} (X)$ , $ε_{0} (X)$ , 我们有 $\begin{aligned} E [Y (1) | Z = 0] = E [\frac{μ_{1} (X)}{ε_{1} (X)} | Z = 0], \\ E [Y (0) | Z = 0] = E [\frac{μ_{0} (X)}{ε_{0} (X)} | Z = 1], \end{aligned}$ 从而 $\begin{aligned} (3.1) & τ = & E [Z Y + (1 - Z) \frac{μ_{1} (X)}{ε_{1} (X)}] - E [Z μ_{0} (X) ε_{0} (X) + (1 - Z) Y] \\ (3.2) & = & E [Z μ_{1} (X) + (1 - Z) \frac{μ_{1} (X)}{ε_{1} (X)}] - E [Z μ_{0} (X) ε_{0} (X) + (1 - Z) μ_{0} (X)] . \end{aligned}$

如果拟合了结果回归模型, 则 $\begin{aligned} {\hat{τ}}^{pred} = & {\frac{1}{n} \sum_{i = 1}^{n} Z_{i} Y_{i} + \frac{1}{n} \sum_{i = 1}^{n} (1 - Z_{i}) \frac{{\hat{μ}}_{1} (X_{i})}{ε_{1} (X_{i})}} \\ - {\frac{1}{n} \sum_{i = 1}^{n} Z_{i} {\hat{μ}}_{0} (X_{i}) ε_{0} (X_{i}) + \frac{1}{n} \sum_{i = 1}^{n} (1 - Z_{i}) Y_{i}}, \\ {\hat{τ}}^{proj} = & {\frac{1}{n} \sum_{i = 1}^{n} Z_{i} {\hat{μ}}_{1} (X_{i}) + \frac{1}{n} \sum_{i = 1}^{n} (1 - Z_{i}) \frac{{\hat{μ}}_{1} (X_{i})}{ε_{1} (X_{i})}} \\ - {\frac{1}{n} \sum_{i = 1}^{n} Z_{i} {\hat{μ}}_{0} (X_{i}) ε_{0} (X_{i}) + \frac{1}{n} \sum_{i = 1}^{n} (1 - Z_{i}) {\hat{μ}}_{0} (X_{i})} . \end{aligned}$
这里术语 "预测性的" (predictive) 和 "投射性的" (projective) 来自调查采样的文献. 前者尽可能用观测到的结果, 后者则用了拟合的值.

更有趣的是, 我们能通过 IPW 来识别 $τ$ .

定理 3.2

给定 $ε_{1} (X), ε_{0} (X)$ , 我们有 $E [Y (1)] = E [ω_{1} (X) \frac{Z}{e (X)} Y], E [Y (0)] = E [ω_{0} (X) \frac{1 - Z}{1 - e (X)} Y],$ 这里 $ω_{1} (X) = e (X) + \frac{1 - e (X)}{ε_{1} (X)}, ω_{0} (X) = e (X) ε_{0} (X) + 1 - e (X) .$

这个定理修改了 IPW公式, 新增了两项 $ω_{1} (X), ω_{0} (X)$ , 它们依赖倾向性得分和敏感性参数. 给定拟合的倾向性得分, 我们有 $\begin{aligned} {\hat{τ}}^{ht} = & \frac{1}{n} \sum_{i = 1}^{n} \frac{{\hat{e} (X_{i}) ε_{1} (X_{i}) + 1 - \hat{e} (X_{i})} Z_{i} Y_{i}}{ε_{1} (X_{i}) \hat{e} (X_{i})} \\ - \frac{1}{n} \sum_{i = 1}^{n} \frac{{\hat{e} (X_{i}) ε_{0} (X_{i}) + 1 - \hat{e} (X_{i})} (1 - Z_{i}) Y_{i}}{1 - \hat{e} (X_{i})}, \\ {\hat{τ}}^{haj} = & \frac{1}{n} \sum_{i = 1}^{n} \frac{{\hat{e} (X_{i}) ε_{1} (X_{i}) + 1 - \hat{e} (X_{i})} Z_{i} Y_{i}}{ε_{1} (X_{i}) \hat{e} (X_{i})} / \sum_{i = 1}^{n} \frac{Z_{i}}{\hat{e} (X_{i})} \\ - \frac{1}{n} \sum_{i = 1}^{n} \frac{{\hat{e} (X_{i}) ε_{0} (X_{i}) + 1 - \hat{e} (X_{i})} (1 - Z_{i}) Y_{i}}{1 - \hat{e} (X_{i})} / \sum_{i = 1}^{n} \frac{1 - Z_{i}}{1 - \hat{e} (X_{i})} . \end{aligned}$
更有趣的是, 给定拟合的倾向性得分和回归模型, ${\hat{τ}}^{dr} = {\hat{τ}}^{ht} - \frac{1}{n} \sum_{i = 1}^{n} {Z_{i} - \hat{e} (X_{i})} {\frac{{\hat{μ}}_{1} (X_{i})}{\hat{e} (X_{i}) ε_{1} (X_{i})} + \frac{{\hat{μ}}_{0} (X_{i}) ε_{0} (X_{i})}{1 - \hat{e} (X_{i})}} .$ 是双重稳健的! 我们可以用 bootstrap 来估计上述估计量的方差.
当 $ε_{1} (X_{i}) = ε_{0} (X_{i}) = 1$ , 上述估计量变回原本定义的回归估计量、IPW 估计量和双重稳健估计量.