3.5 在因果效应的回归中使用倾向得分

#PropensityScore #WLS #DoublyRobust #IPW #OutcomeRegression #ObservationalStudy

本章介绍倾向得分的几个应用:

在回归中将倾向得分作为一个协变量;
用逆倾向得分作为回归权重.

这是基于下面的原因:

易于实现, 回归中只包含标准的统计库;
效果和很多复杂方法相当;
能轻松扩展到其他模型, 包括机器学习算法.

1 在回归中将倾向得分作为一个协变量

根据这个定理, 如果 $X$ 条件下可忽略性成立, 则在 $e (X)$ 下也成立: $Z ⊥ ⊥ {Y (1), Y (0)} | e (X) .$ 类似 (2.2), $τ$ 也可以无参数地表示为 $τ = E [E {Y | Z = 1, e (X)} - E {Y | Z = 0, e (X)}],$ 这启发了 $Y$ 在 $Z, e (X)$ 上回归的算法. 最简单的 OLS 就是 $Y$ 在 ${1, Z, e (X)}$ 上的回归. 这里 $Z$ 的系数 $τ_{e}$ 作为估计量. 为了简单起见, 我们讨论群体 OLS: $\arg min_{a, b, c} E {Y - a - b Z - c e (X)}^{2},$ 然后定义 $τ_{e}$ 为 $Z$ 的系数. 如果我们有一个正确的倾向得分模型, 且结果模型却是关于 $Z, e (X)$ 是线性的, 那它关于 $τ$ 是一致的. 更有趣的是, $τ_{e}$ 可以估计前面提到的 $τ_{O}$ , 如果我们有一个正确的倾向得分模型, 即使结果模型完全错误.

定理 1.1

如果 $Z ⊥ ⊥ {Y (1), Y (0)} | X$ , 则 $Y$ 在 ${1, Z, e (X)}$ 上的群体 OLS 拟合下, $Z$ 的系数是 $τ_{e} = τ_{O} = \frac{E [h_{O} (X) τ (X)]}{E [h_{O} (X)]},$ 回顾一下 $h_{O} (X) = e (X) [1 - e (X)]$ , $τ (X) = E [Y (1) - Y (0) | X]$ .

这说明重合度条件再也不需要了. 即使有些单元的 $e (X)$ 为 $0 / 1$ , 它们的权重都是 $e (X) [1 - e (X)] = 0$ , 所以它们不用为 $τ_{O}$ 贡献任何东西.

证明

根据 FWL 定理, 我们可以通过两步得到 $τ_{e}$ :

$Z$ 在 ${1, e (X)}$ 上 OLS, 得到 $\tilde{Z}$ ;
$Y$ 在 $\tilde{Z}$ 上 OLS, 得到 $τ_{e}$ .

则 $\begin{aligned} \frac{Cov {Z, e (X)}}{Var {e (X)}} & = \frac{E [Cov {Z, e (X) | X}] + Cov {E (Z | X), e (X)}}{Var {e (X)}} \\ = \frac{0 + Var {e (X)}}{Var {e (X)}} = 1, \end{aligned}$ 所以截距 $E [Z] - E [e (X)] = 0$ , 残差为 $\tilde{Z} = Z - e (X)$ . 这样我们能得到 $τ_{e} = \frac{Cov {Z - e (X), Y}}{Var {Z - e (X)}} .$ 化简分母 $\begin{aligned} Var {Z - e (X)} & = E [Z - e (X)]^{2} = E [Z + e (X)^{2} - 2 Z \cdot e (X)] \\ = E [e (X) + e (X)^{2} - 2 e (X)^{2}] = E [h_{O} (X)], \end{aligned}$ 分子为 $\begin{aligned} Cov {Z - e (X), Y} = E [{Z - e (X)} Y] \\ (*) & = & E [{Z - e (X)} Z Y (1)] + E [{Z - e (X)} (1 - Z) Y (0)] \\ = & E [{Z - Z e (X)} Y (1)] - E [e (X) (1 - Z) Y (0)] \\ (**) & = & E [e (X) {1 - e (X)} μ_{1} (X)] - E [e (X) {1 - e (X)} μ_{0} (X)] \\ = & E [h_{O} (X) τ (X)], \end{aligned}$ 这里 (*) 是因为 $Y = Z Y (1) + (1 - Z) Y (0)$ , (**) 是因为塔式法则和可忽略性.

从证明看出, 我们可以简单的把 $Y$ 在 $Z - e (X)$ 上跑 OLS. 进一步地, 我们可以把 $X$ 包括进 OLS 拟合, 它在有限样本中可能能提升精度. 不过这不会改变待估计量就是 $τ_{O}$ . 我们把这些结果总结如下:

推论

如果 $Z ⊥ ⊥ {Y (1), Y (0)} | X$ , 则

$Y$ 在 $Z - e (X)$ 或者 ${1, Z - e (X)}$ 上的群体 OLS 中, $Z - e (X)$ 的系数是 $τ_{O}$ ;
$Y$ 在 ${1, Z, e (X), X}$ 上的群体 OLS 中, $Z$ 的系数是 $τ_{O}$ .

证明

第一个结果就是定理 1.1 证明中的一步; 第二个结果成立是因为不管是 $Z - e (X)$ 还是 ${1, Z - e (X)}$ , 都不改变 $Z - e (X)$ 的系数, 因为均值为 $0$ .
我们可以再次用 FWL 定理. 我们首先从 $Z$ 在 ${1, e (X), X}$ 上的群体 OLS, 得到残差 $Z - e (X)$ ^[1] 则 $Y$ 在 ${1, Z, e (X), X}$ 上群体 OLS 下 $Z$ 的系数就和 $Z - e (X)$ 上群体 OLS 的系数一样.

定理 1.1 启发了一个两步的 $τ_{O}$ 的估计方法:

拟合倾向得分模型来得到 $\hat{e} (X_{i})$ ;
$Y_{i}$ 在 $(1, X_{i}, \hat{e} (X_{i}))$ 上跑 OLS, 得到 $Z_{i}$ 的系数.

推论的 (1) 启发了:

拟合 $\hat{e} (X_{i})$ ;
$Y_{i}$ 在 $Z_{i} - \hat{e} (X_{i})$ 上跑 OLS, 得到 $Z_{i}$ 的系数.

推论的 (2) 启发了:

拟合 $\hat{e} (X_{i})$ ;
$Y_{i}$ 在 $(1, Z_{i}, \hat{e} (X_{i}), X_{i})$ 上跑 OLS, 得到 $Z_{i}$ 的系数.

尽管 OLS 对点估计很方便, 但是标准误差会是错误的, 因为第一步倾向得分估计的不确定性. 我们可以用 bootstrap 来近似估计标准误差.

2 用逆倾向得分作为回归权重

2.1 平均因果效应

我们再来看一下 hajek估计量 ${\hat{τ}}^{hajek} = \frac{\sum_{i = 1}^{n} \frac{Z_{i} Y_{i}}{\hat{e} (X_{i})}}{\sum_{i = 1}^{n} \frac{Z_{i}}{\hat{e} (X_{i})}} - \frac{\sum_{i = 1}^{n} \frac{(1 - Z_{i}) Y_{i}}{1 - \hat{e} (X_{i})}}{\sum_{i = 1}^{n} \frac{1 - Z_{i}}{1 - \hat{e} (X_{i})}},$ 这等于实验/对照组的结果加权均值之差. 数值上, 它等于 $Y_{i}$ 在 $(1, Z_{i})$ 上 WLS 的 $Z_{i}$ 系数:

命题

${\hat{τ}}^{hajek}$ 等于如下 WLS 产生的 $\hat{β}$ : $(\hat{α}, \hat{β}) = \arg min_{α, β} \sum_{i = 1}^{n} w_{i} (Y_{i} - α - β Z_{i})^{2},$ 这里 $\begin{matrix} (2.1) & w_{i} = \frac{Z_{i}}{\hat{e} (X_{i})} + \frac{1 - Z_{i}}{1 - \hat{e} (X_{i})} = {\begin{aligned} \frac{1}{\hat{e} (X_{i})}, Z_{i} = 1, \\ \frac{1}{1 - \hat{e} (X_{i})}, Z_{i} = 0. \end{aligned} \end{matrix}$

从这个命题看出, 我们可以通过 WLS 容易地得到 ${\hat{τ}}^{hajek}$ . 当然因为倾向得分估计的不确定性, 我们同样要用 bootstrap 来估计标准误差.

为什么 WLS 能给出 $τ$ 的一致估计量?
在 CRE 中, 我们直接 $Y_{i} \sim (1, Z_{i})$ 然后用 $Z_{i}$ 的系数估计 $τ$ . 在观察性研究中, 各个样本进对照/实验组的概率是不同的, 但如果我们用 $\frac{1}{e (X_{i})}$ 去加权处理组, $\frac{1}{1 - e (X_{i})}$ 去加权对照组, 则它们都能代表总体. 通过加权, 实际上我们人为制造了一个"伪随机实验".

此外, 基于 WLS 的这个估计量还是双重稳定的.

记 $e (X_{i}, \hat{α})$ 为拟合的倾向得分, $(μ_{1} (X_{i}, {\hat{β}}_{1}), μ_{0} (X_{i}, {\hat{β}}_{0}))$ 是结果均值在 WLS 下的拟合值. 结果回归估计量为 ${\hat{τ}}_{wls}^{reg} = \frac{1}{n} \sum_{i = 1}^{n} μ_{1} (X_{i}, {\hat{β}}_{1}) - \frac{1}{n} \sum_{i = 1}^{n} μ_{0} (X_{i}, {\hat{β}}_{0}),$
而 $τ$ 的双重稳定估计量为 ${\hat{τ}}_{T, wls}^{dr} = {\hat{τ}}_{T, wls}^{reg} + \frac{1}{n} \sum_{i = 1}^{n} \frac{Z_{i} {Y_{i} - μ_{1} (X_{i}, {\hat{β}}_{1})}}{e (X_{i}, \hat{α})} - \frac{1}{n} \sum_{i = 1}^{n} \frac{(1 - Z_{i}) {Y_{i} - μ_{0} (X_{i}, {\hat{β}}_{0})}}{1 - e (X_{i}, \hat{α})} .$
一个有趣的结果将两者关联:

定理 2.1

如果 $\overset{―}{X} = 0$ , $(μ_{1} (X_{i}, {\hat{β}}_{1}), μ_{0} (X_{i}, {\hat{β}}_{0})) = ({\hat{β}}_{10} + {\hat{β}}_{1 x}^{T} X_{i}, {\hat{β}}_{00} + {\hat{β}}_{0 x}^{T} X_{i})$ , 基于 $Y_{i}$ 在 $(1, Z_{i}, X_{i}, Z_{i} X_{i})$ 以及 (2.1) 权重下的 WLS, 则 ${\hat{τ}}_{wls}^{dr} = {\hat{τ}}_{wls}^{reg} = {\hat{β}}_{10} - {\hat{β}}_{00},$ 也是 WLS 拟合中 $Z_{i}$ 的系数.

证明

$Y_{i}$ 在 $(1, Z_{i}, X_{i}, Z_{i} X_{i})$ 上的 WLS 拟合, 等价于在实验/对照组上的两个 WLS 拟合. 两个 WLS 都有截距, 所以加权残差为 $0$ : $\begin{aligned} \sum_{i = 1}^{n} \frac{Z_{i} (Y_{i} - {\hat{β}}_{10} - {\hat{β}}_{1 x}^{T} X_{i})}{\hat{e} (X_{i})} & = 0, \\ \sum_{i = 1}^{n} \frac{(1 - Z_{i}) (Y_{i} - {\hat{β}}_{00} - {\hat{β}}_{0 x}^{T} X_{i})}{1 - \hat{e} (X_{i})} & = 0. \end{aligned}$ 所以 ${\hat{τ}}^{dr}, {\hat{τ}}^{reg}$ 的差就是 $0$ . 两个估计量都为 $\begin{aligned} \frac{1}{n} \sum_{i = 1}^{n} ({\hat{β}}_{10} + {\hat{β}}_{1 x}^{T} X_{i}) - \frac{1}{n} \sum_{i = 1}^{n} ({\hat{β}}_{00} + {\hat{β}}_{0 x}^{T} X_{i}) \\ = & {\hat{β}}_{10} - {\hat{β}}_{00} + ({\hat{β}}_{1 x} - {\hat{β}}_{0 x})^{T} \overset{―}{X} = {\hat{β}}_{10} - {\hat{β}}_{00} . \end{aligned}$ 这样它们都等于 $Y_{i}$ 在 $(1, Z_{i}, X_{i}, Z_{i} X_{i})$ 的 WLS 下 $Z_{i}$ 的系数.

我们用下表总结因果效应的各种回归估计量.

	CRE	没有混杂变量的观察性实验
没有 $X$	$Y_{i} \sim (1, Z_{i})$	$Y_{i} \sim (1, Z_{i})$ , 有权重 $w_{i}$
有 $X$	$Y_{i} \sim (1, Z_{i}, X_{i}, Z_{i} X_{i})$	$Y_{i} \sim (1, Z_{i}, X_{i}, Z_{i} X_{i})$ , 有权重 $w_{i}$

2.2 实验单元的平均因果效应

$τ_{T}$ 的结果和 $τ$ 的是平行的. 首先是 $τ_{T}$ 的 Hajek 估计量 ${\hat{τ}}_{T}^{hajek} = \hat{\overset{―}{Y}} (1) - \frac{\sum_{i = 1}^{n} \hat{o} (X_{i}) (1 - Z_{i}) Y_{i}}{\sum_{i = 1}^{n} \hat{o} (X_{i}) (1 - Z_{i})},$ 这里 $\hat{o} (X_{i}) = \frac{\hat{e} (X_{i})}{1 - \hat{e} (X_{i})}$ , 等于 $Y_{i}$ 在 $(1, Z_{i})$ 的如下 WLS 中, $Z_{i}$ 的系数.

命题

${\hat{τ}}_{T}^{hajek}$ 在数值上等于如下 WLS 得到的 $\hat{β}$ : $(\hat{α}, \hat{β}) = \arg min_{α, β} \sum_{i = 1}^{n} w_{T i} (Y_{i} - α - β Z_{i})^{2},$ 权重为 $\begin{matrix} (2.2) & w_{T i} = Z_{i} + (1 - Z_{i}) \hat{o} (X_{i}) = {\begin{aligned} 1, Z_{i} = 1, \\ \hat{o} (X_{i}), Z_{i} = 0. \end{aligned} \end{matrix}$

如果我们中心化协变量: $\hat{\overset{―}{X}} (1) = 0$ , 则可以用 (2.2) 的 $Y_{i} \sim (1, Z_{i}, X_{i}, Z_{i} X_{i})$ 下 $Z_{i}$ 的系数. 类似地, 它等于回归估计量 ${\hat{τ}}_{T, wls}^{reg} = \hat{\overset{―}{Y}} (1) - \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} μ_{0} (X_{i}, {\hat{β}}_{0}),$ 也等于双重稳健估计量 ${\hat{τ}}_{T, wls}^{dr} = {\hat{τ}}_{T, wls}^{reg} - \frac{1}{n_{1}} \sum_{i = 1}^{n} \hat{o} (X_{i}) (1 - Z_{i}) {Y_{i} - μ_{0} (X_{i}, {\hat{β}}_{0})} .$

定理 2.2

如果 $\hat{\overset{―}{X}} (1) = 0$ , $μ_{0} (X_{i}, {\hat{β}}_{0}) = {\hat{β}}_{00} + {\hat{β}}_{0 x}^{T} X_{i}$ (基于 $Y_{i} \sim (1, Z_{i}, X_{i}, Z_{i} X_{i})$ , 权重来自 (2.2)), 则 ${\hat{τ}}_{T, wls}^{dr} = {\hat{τ}}_{T, wls}^{reg} = {\hat{β}}_{10} - {\hat{β}}_{00},$ 也就是 $Z_{i}$ 的系数.

证明

基于实验/对照组的 WLS 拟合: $\begin{aligned} \sum_{i = 1}^{n} Z_{i} (Y_{i} - {\hat{β}}_{10} - {\hat{β}}_{1 x}^{T} X_{i}) & = 0, \\ \sum_{i = 1}^{n} \hat{o} (X_{i}) (1 - Z_{i}) (Y_{i} - {\hat{β}}_{00} - {\hat{β}}_{0 x}^{T} X_{i}) & = 0. \end{aligned}$ 这里第二个结果保证了 ${\hat{τ}}_{T, wls}^{dr} = {\hat{τ}}_{T, wls}^{reg}$ . 两者都得到 $\hat{\overset{―}{Y}} (1) - \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} ({\hat{β}}_{00} + {\hat{β}}_{0 x}^{T} X_{i}) = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} (Y_{i} - {\hat{β}}_{00} - {\hat{β}}_{0 x}^{T} X_{i}) .$
因为协变量被中心化了, 所以第一个结果推出 $\hat{\overset{―}{Y}} (1) = {\hat{β}}_{10}$ , 进而得到 ${\hat{β}}_{10} - {\hat{β}}_{00}$ .

因为 $Z - e (X) = Z - 0 - 1 \cdot e (X) - 0^{T} X$ , 且 $Z - e (X)$ 与任何 $X$ 的函数不相关. ↩︎