3.1 观察性实验选择偏差因果效应的非参数识别

#ObservationalStudy #SelectionBias #Randomization #CRE #OutcomeRegression

如果我们要阐明因果关系, 且对照实验不可行, 我们可以考虑观察性实验.

1 潜在结果下的因果效应和选择偏差

对单元 $i (i = 1, \dots, n)$ , 我们有处理前协变量 $X_{i}$ , 指示是否处理的变量 $Z_{i}$ , 观测结果 $Y_{i}$ ( $Y_{i} (1), Y_{i} (0)$ ). 假设 ${X_{i}, Z_{i}, Y_{i} (1), Y_{i} (0)}_{i = 1}^{n} \overset{i . i . d}{\sim} {X, Z, Y (1), Y (0)} .$ 这样我们去掉下标 $i$ , 定义 $τ = E [Y (1) - Y (0)]$ , 以及两个组 $\begin{aligned} τ_{T} = E [Y (1) - Y (0) | Z = 1], τ_{C} = E [Y (1) - Y (0) | Z = 0] . \end{aligned}$
根据 (1.1), $\begin{aligned} τ_{T} & = E (Y | Z = 1) - E (Y (0) | Z = 1), \\ τ_{C} & = E (Y (1) | Z = 0) - E (Y | Z = 0) . \end{aligned}$ ^[1]

定义简单均值之差^[2] $\begin{aligned} τ_{PF} & = E (Y | Z = 1) - E (Y | Z = 0) \\ = E (Y (1) | Z = 1) - E (Y (0) | Z = 0) . \end{aligned}$
这样, $\begin{aligned} τ_{PF} - τ_{T} & = E [Y (0) | Z = 1] - E [Y (0) | Z = 0], \\ τ_{PF} - τ_{C} & = E [Y (1) | Z = 1] - E [Y (1) | Z = 0] \end{aligned}$ 通常不是 $0$ , 它们可以用来量化选择偏差.

在 2.7节中, 我们在 CRE 中假定 $Z ⊥ ⊥ {Y (1), Y (0)}$ , 则 $\begin{matrix} (1.1) & τ_{PF} = τ_{T} = τ_{C} = τ . \end{matrix}$
从上面的讨论看出, 随机化最主要的好处是平衡潜在结果在两个组中的分布, 这比起观测协变量的平衡要远远更强. 如果没有随机化, 选择偏差可能会很大. 这便是观察性实验本质的难点所在.

2 因果效应非参数检验的充分条件

2.1 可识别性

观察性实验的因果推断很有挑战, 它依赖很强的假设. 我们可以用处理前协变量的信息, 假设 $\begin{aligned} E [Y (0) | Z = 1, X] & = E [Y (0) | Z = 0, X], \\ (2.1) & E [Y (1) | Z = 1, X] & = E [Y (1) | Z = 0, X] . \end{aligned}$
这个假设说明, 两个组潜在结果的差别, 完全源于观察到协变量的差别. 所以如果协变量的值给的是一样的, 潜在结果在两组的均值应该一样. 数学上看, 这说明了 (1.1) 的条件版本是一样的: $τ (X) = τ_{T} (X) = τ_{C} (X) = τ_{PF} (X),$ 这里 $\begin{aligned} τ (X) & = E [Y (1) - Y (0) | X], \\ τ_{T} (X) & = E [Y (1) - Y (0) | Z = 1, X], \\ τ_{C} (X) & = E [Y (1) - Y (0) | Z = 0, X], \\ τ_{PF} (X) & = E [Y | Z = 1, X] - E [Y | Z = 0, X] . \end{aligned}$ 特别地, $τ (X)$ 经常被叫成 条件平均因果效应 (CATE).

可识别性

参数 $θ$ 是可识别的, 如果它可以被写成观测数据分布的函数.
$θ$ 是非参数可识别的, 如果它的函数表达不需要任何参数模型假设.^[3]

例如

$θ = E [Y]$ 是非参数可识别的, 如果我们的 $Y_{i}$ 是 IID 采样的.
Pearson 相关系数 $θ = ρ_{Y X}$ 是非参数可识别的, 如果 $(X_{i}, Y_{i})$ 采样是 IID 的.

可识别性在观察性实验中是至关重要的. 特别地, $τ = E [Y (1) - Y (0)]$ 本身无法判断是否可识别. 但是在假设 (2.1) 下, 它是非参数可识别的.

简证

因为 $τ_{PF} (X)$ 只基于可观测结果, 它是可识别的. 而 (2.1) 保证了几个因果效应 $τ$ 的值一样, 所以这几个 $τ$ 都是可识别的. 所以基于全期望公式, 不加条件的版本也是可识别的: $τ = E [τ (X)], τ_{T} = E [τ_{T} (X) | Z = 1], τ_{C} = E [τ_{C} (X) | Z = 0] .$

接下来如果不加特别说明, 我们关注 $τ$ .

定理 2.1

在 (2.1) 下, $\begin{aligned} τ & = E [τ (X)] \\ (2.2) & = E {E [Y | Z = 1, X] - E [Y | Z = 0, X]} \\ = \int {E [Y | Z = 1, X = x] - E [Y | Z = 0, X = x]} f (x) d x . \end{aligned}$

对于离散的协变量, 可以写成 $\begin{aligned} τ = & \sum_{x} E [Y | Z = 1, X = x] P (X = x) \\ - \sum_{x} E [Y | Z = 0, X = x] P (X = x), \end{aligned}$ 以及 $\begin{aligned} τ_{PF} = & \sum_{x} E [Y | Z = 1, X = x] P (X = x | Z = 1) \\ - \sum_{x} E [Y | Z = 0, X = x] P (X = x | Z = 0) . \end{aligned}$
我们通常会给出一个更强的假设:

假设 (可忽略性)

$Y (z) ⊥ ⊥ Z | X, z = 0, 1.$

有时候还会有一个更强的假设:

假设 (强可忽略性)

${Y (1), Y (0)} ⊥ ⊥ Z | X .$

2.2 可忽略性假设的合理性

可忽略性要求, 找到 $X$ 之后, 剩下实验单元的分组就不会存在混杂变量了, 也即随机性造成的影响可忽略. 我们可以基于数据生成的流程来解释这个假设: 如果 $\begin{aligned} Y (1) & = g_{1} (X, V_{1}), \\ Y (0) & = g_{0} (X, V_{0}), \\ Z & = 1 {g (X, V) \geq 0}, \end{aligned}$ 这里 $(V_{1}, V_{0}) ⊥ ⊥ V$ , 则可忽略性、强可忽略性就都成立. 这里 "通常的诱因" $X$ 和结果都被观测到了, 剩下的随机的部分彼此独立. 而如果是 $\begin{aligned} Y (1) & = g_{1} (X, U, V_{1}), \\ Y (0) & = g_{0} (X, U, V_{0}), \\ Z & = 1 {g (X, U, V) \geq 0}, \end{aligned}$ 这里 $(V_{1}, V_{0}) ⊥ ⊥ V$ , 则那两个假设一般不成立, 因为 $U$ 是个没有被测量到的诱因

3 两个简单的估计策略和它们的缺陷

3.1 基于离散协变量的分层或标准化

如果协变量 $X_{i} \in {1, \dots, K}$ 是离散的, 则可忽略性表示为 $Y (z) ⊥ ⊥ Z | X = k, (z = 0, 1; k = 1, \dots, K),$ 这本质上假设观察性研究是一个在超总体下的 SRE. 因此我们用估计量 $\hat{τ} = \sum_{k = 1}^{K} π_{[k]} {{\hat{\overset{―}{Y}}}_{[k]} (1) - {\hat{\overset{―}{Y}}}_{[k]} (0)},$ 这和之前讲的分层/后分层一样.
这个方法依然广泛在实践中被采用.

3.2 结果回归

结果回归中最常用的方法是如下的回归: $E [Y | Z, X] = β_{0} + β_{z} Z + β_{x}^{T} X .$ 如果这个线性模型正确, 则 $\begin{aligned} τ (X) & = E (Y | Z = 1, X) - E (Y | Z = 0, X) \\ = (β_{0} + β_{z} + β_{x}^{T} X) - (β_{0} + β_{x}^{T} X) = β_{z}, \end{aligned}$ 这表明因果效应的值与协变量无关. 再结合可忽略性, 就有 $τ = E [τ (X)] = β_{z} .$ 因此如果可忽略性成立、结果模型是线性的, 则平均因果效应就是 $Z$ 的系数.
当然这两个条件也是比较强的. 这个结果其实即使在 CRE 中也不是最优的. 如果我们假设 $E [Y | Z, X] = β_{0} + β_{z} Z + β_{x}^{T} X + β_{z x}^{T} X Z,$ 则 $\begin{aligned} τ (X) & = E (Y | z = 1, X) - E (Y | Z = 0, X) \\ = (β_{0} + β_{z} + β_{x}^{T} X + β_{z x}^{T} X) - (β_{0} + β_{x}^{T} X) \\ = β_{z} + β_{z x}^{T} X, \end{aligned}$ 再结合可忽略性 $τ = E [τ (X)] = β_{z} + β_{z x}^{T} E [X],$ 可以用 ${\hat{β}}_{z} + {\hat{β}}_{z x}^{T} \overset{―}{X}$ 来估计 (这里用了回归的系数和样本均值). 如果我们让 $\overset{―}{X} = 0$ , 则估计量就是 $Z$ 的系数.

一般地, 我们可以用更复杂的模型来估计因果效应, 比如基于实验和对照数据构造预测量 ${\hat{μ}}_{1} (X), {\hat{μ}}_{0} (X)$ , 则 $\hat{τ} (X) = {\hat{μ}}_{1} (X) - {\hat{μ}}_{0} (X)$ 可以估计条件平均因果效应, 有时也称为 结果回归估计量; 以及 ${\hat{τ}}^{reg} = \frac{1}{n} \sum_{i = 1}^{n} {{\hat{μ}}_{1} (X_{i}) - {\hat{μ}}_{0} (X_{i})}$ 估计平均因果效应.

二元结果的结果回归估计量

如果结果是二元的, 我们可以用 Logistic 模型 $E (Y | Z, X) = P (Y = 1 | Z, X) = \frac{e^{β_{0} + β_{z} Z + β_{x}^{T} X}}{1 + e^{β_{0} + β_{z} Z + β_{x}^{T} X}},$ 则基于系数 ${\hat{β}}_{0}, {\hat{β}}_{z}, {\hat{β}}_{x}$ , 有 $\hat{τ} = \frac{1}{n} \sum_{i = 1}^{n} {\frac{e^{{\hat{β}}_{0} + {\hat{β}}_{z} + {\hat{β}}_{x}^{T} X_{i}}}{1 + e^{{\hat{β}}_{0} + {\hat{β}}_{z} + {\hat{β}}_{x}^{T} X_{i}}} - \frac{e^{{\hat{β}}_{0} + {\hat{β}}_{x}^{T} X_{i}}}{1 + e^{{\hat{β}}_{0} + {\hat{β}}_{x}^{T} X_{i}}}} .$
这个估计量不仅是 Logistic 模型中实验处理项的系数, 而是关于所有系数和协变量经验分布的非线性函数.

注意和 (1.1) 比, 这里没有 CRE 的条件, 所以条件期望里不能完全化为 $Y$ . 我们把这里的 $E (Y (1) | Z = 0), E (Y (0) | Z = 1)$ 称为反事实(counterfactuals). ↩︎
这里的 PF 代表 prima facie, 拉丁语, 意为基于第一印象. ↩︎
这个定义太抽象了, 后续我们会见到具体的例子. ↩︎