3.6 观察性实验中的匹配

#ObservationalStudy #MPE #DoublyRobust #OutcomeRegression #PSM

本节讲的算法其实有个名字 Propensity score matching (PSM), 这是业界很常用的算法.

1 一个出发点: 远远更多的对照单元

Pasted image 20260329125558.png|350

如果在实验/对照的观察性实验中, 对照组的单元数量 $n_{0} ≫ n_{1}$ . 对实验组的 $i = 1, \dots, n_{1}$ , 我们在对照组找一个 $m (i)$ 使得协变量 $X_{i} = X_{m (i)}$ . 理想情况下这是个双射, 且倾向得分 $e (X_{i}) = e (X_{m (i)})$ . 因此 $P (Z_{i} = 1, Z_{m (i)} = 0 | Z_{i} + Z_{m (i)} = 1, X_{i}, X_{m (i)}) = \frac{1}{2} .$

推导

$\begin{aligned} LHS & = \frac{P (Z_{i} = 1, Z_{m (i)} = 0 | X_{i}, X_{m (i)})}{P (Z_{i} = 1, Z_{m (i)} = 0 | X_{i}, X_{m (i)}) + P (Z_{i} = 0, Z_{m (i)} = 1 | X_{i}, X_{m (i)})} \\ = \frac{e (X_{i}) {1 - e (X_{m (i)})}}{e (X_{i}) {1 - e (X_{m (i)})} + {1 - e (X_{i})} e (X_{m (i)})} = \frac{1}{2} . \end{aligned}$

也即给定一一分配到两个组的要求和协变量, 实验组分配和 MPE 一致. 这样我们可以用 FRT 或者 Neyman 等方法当作 MPE 一样分析.
但因为 $n_{0} ≫ n_{1}$ , 我们可以找到 $M_{i}$ 个匹配的对照组. 如果 $M_{i}$ 会变化, 这称为 可变比例匹配 (variable-ratio matching).
如果是完美匹配, 我们可以用 MPE 那套分析. 但是大多数情况下 $X_{i} = X_{m (i)}$ 并不能对所有单元成立.

2 一个更复杂但现实的情形

即使对照组很大, 我们也经常得不到完美的匹配. 我们只能得到 $X_{i} \approx X_{m (i)}$ , 或者 $X_{i} - X_{m (i)}$ 在某些距离度量下很小. 例如我们定义 $m (i) = \arg min_{k : Z_{k} = 0} d (X_{i}, X_{k}),$ 这里 $d (X_{i}, X_{k})$ 是个距离度量. 通常的取法是 $d (X_{i}, X_{k}) = (X_{i} - X_{k})^{T} (X_{i} - X_{k})$ 或 Mahalanobis 距离 $d (X_{i}, X_{k}) = (X_{i} - X_{k})^{T} Ω^{- 1} (X_{i} - X_{k}),$ 这里 $Ω$ 是 $X_{i}$ 的协方差矩阵 (可以是整个群体或者仅仅对照组).
这里有一些问题.

拓展到一对 $M$ 的讨论.
无放回匹配的讨论. 我们主要用的是有放回匹配, 通常匹配质量更高, 但是一个单元可能会被匹配多次, 引入了数据依赖性. 而无放回匹配虽然涉及计算量巨大的离散优化, 但是匹配单元间更有独立性.
匹配后的数据协变量依然有细微差异, 所以要在匹配的数据上跑 OLS, 抹平残差.
纬度灾难: 如果 $X_{i}$ 是高维的, 则 $d (X_{i}, X_{k})$ 可能一直很大. 此时我们不得不删去难以匹配的单元, 但这也改变了我们感兴趣的研究人群.
上述问题很难避免. 例如, 如果 $X_{i}, X_{k} \overset{i . i . d}{\sim} N (0, I_{p})$ , 则 $(X_{i} - X_{k})^{T} (X_{i} - X_{k}) \sim 2 χ_{p}^{2},$ 这意味着它有均值 $2 p$ 和方差 $8 p$ . 对于大的 $p$ , 不完美的匹配会带来因果效应的更大偏差. 所以我们必须要进行一些降维, 而倾向得分就可以在这里使用.

3 平均因果效应的匹配估计量

我们取标准的观察性实验设置 ${X_{i}, Z_{i}, Y_{i} (1), Y_{i} (0)} \overset{i . i . d}{\sim} {X, Z, Y (1), Y (0)}$ .

3.1 点估计和偏差修正

我们考虑有放回的 $1 - M$ 配对. 对实验单元 $i$ , 我们可以把潜在结果归因为 ${\hat{Y}}_{i} (0) = \frac{1}{M} \sum_{k \in J_{i}} Y_{k},$ 这里 $J_{i}$ 是 $i$ 在对照组中的匹配单元. 例如, 我们可以对对照组的所有 $k$ 计算 $d (X_{i}, X_{k})$ , 然后定义 $J_{i}$ 是所有让 $d$ 最小的 $k$ 的集合.
对对照单元 $i$ , 我们可以简单令 ${\hat{Y}}_{i} (0) = Y_{i}$ , 然后令 ${\hat{Y}}_{i} (1) = \frac{1}{M} \sum_{k \in J_{i}} Y_{k},$ 这里 $J_{i}$ 是 $i$ 在实验组中的匹配单元.
匹配估计量为 ${\hat{τ}}^{m} = \frac{1}{n} \sum_{i = 1}^{n} {{\hat{Y}}_{i} (1) - {\hat{Y}}_{i} (0)} .$ 它的偏差实际上是不可忽略的, 特别当 $X$ 是多维的, 且实验/对照组单元数量相当. 我们可以用下面的估计量来估计偏差: $\begin{aligned} \hat{B} = \frac{1}{n} \sum_{i = 1}^{n} {\hat{B}}_{i}, \\ {\hat{B}}_{i} = \frac{2 Z_{i} - 1}{M} \sum_{k \in J_{i}} {{\hat{μ}}_{1 - Z_{i}} (X_{i}) - {\hat{μ}}_{1 - Z_{i}} (X_{k})}, \end{aligned}$ 这里 ${{\hat{μ}}_{1} (X_{i}), {\hat{μ}}_{0} (X_{i})}$ 是预测的结果, 例如用 OLS.
对实验单元 $Z_{i} = 1$ , 估计的偏差是 ${\hat{B}}_{i} = \frac{1}{M} \sum_{k \in J_{i}} {{\hat{μ}}_{0} (X_{i}) - {\hat{μ}}_{0} (X_{k})},$ 它修正了协变量错误匹配带来的对照组潜在结果的差距; 类似地对对照单元 $Z_{i} = 0$ , ${\hat{B}}_{i} = - \frac{1}{M} \sum_{k \in J_{i}} {{\hat{μ}}_{1} (X_{i}) - {\hat{μ}}_{1} (X_{k})} .$ 最后修正偏差了的估计量为 ${\hat{τ}}^{mbc} = {\hat{τ}}^{m} - \hat{B},$ 它有如下的线性展开.

命题

我们有 $\begin{matrix} (3.1) & {\hat{τ}}^{mbc} = \frac{1}{n} \sum_{i = 1}^{n} {\hat{ψ}}_{i}, \end{matrix}$ 其中 ${\hat{ψ}}_{i} = {\hat{μ}}_{1} (X_{i}) - {\hat{μ}}_{0} (X_{i}) + (2 Z_{i} - 1) (1 + \frac{K_{i}}{M}) {Y_{i} - {\hat{μ}}_{Z_{i}} (X_{i})},$ 而 $K_{i}$ 是 $i$ 单元被匹配的次数.

这个线性展开导出一个简单的方差估计量. 把 ${\hat{τ}}^{mbc}$ 看作 ${\hat{ψ}}_{i}$ 的样本均值, 我们有 ${\hat{V}}^{mbc} = \frac{1}{n^{2}} \sum_{i = 1}^{n} ({\hat{ψ}}_{i} - {\hat{τ}}^{mbc})^{2},$

3.2 与双重稳健估计量的关联

偏差修正的匹配估计量和双重稳健估计量有紧密的关联. 如果我们修改一下残差 ${\hat{R}}_{i} = {\begin{aligned} Y_{i} - {\hat{μ}}_{1} (X_{i}), Z_{i} = 1, \\ Y_{i} - {\hat{μ}}_{0} (X_{i}), Z_{i} = 0, \end{aligned}$ 则它们都和这个结果回归估计量相同.
对平均因果效应, 回顾结果回归估计量和双重稳健估计量 ${\hat{τ}}^{dr} = {\hat{τ}}^{reg} + \frac{1}{n} \sum_{i = 1}^{n} {\frac{Z_{i} {\hat{R}}_{i}}{\hat{e} (X_{i})} - \frac{(1 - Z_{i}) {\hat{R}}_{i}}{1 - \hat{e} (X_{i})}} .$ 进一步地 ${\hat{τ}}^{mbc}$ 形式类似 ${\hat{τ}}^{dr}$ :

命题

${\hat{τ}}^{mbc} = {\hat{τ}}^{reg} + \frac{1}{n} \sum_{i = 1}^{n} {(1 + \frac{K_{i}}{M}) Z_{i} {\hat{R}}_{i} - (1 + \frac{K_{i}}{M}) (1 - Z_{i}) {\hat{R}}_{i}} .$

从这个命题, 我们可以把匹配看作一个倾向得分的非参数估计方式, 得到的 ${\hat{τ}}^{mbc}$ 看作一个双重稳定估计量. 例如, $1 + \frac{K_{i}}{M}$ 应该接近 $\frac{1}{\hat{e} (X_{i})}$ . 当实验单元有小的 $e (X_{i})$ 时, $\frac{1}{\hat{e} (X_{i})}$ 会很大, 它会匹配到很多对照单元, 导致大的 $K_{i}$ 以及大的 $1 + \frac{K_{i}}{M}$ . 但是这种连接也会有一个显然的问题. 如果固定 $M$ , 则用 $1 + \frac{K_{i}}{M}$ 估计 $\frac{1}{e (X_{i})}$ 会有"很大噪音" (也即估计量方差大, 极不稳定, 因为你观察的数据是有限的、定死的). 所以我们必须要要求 $M$ 随着样本量一起增大才可能提升这个估计量的表现.

4 实验组中平均因果效应的匹配估计量

对实验组的平均因果效应 $τ_{T} = E [Y | Z = 1] - E [Y (0) | Z = 1],$ 对于缺失的潜在结果, 用对照组的进行填补即可: ${\hat{τ}}_{T}^{m} = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} {Y_{i} - {\hat{Y}}_{i} (0)}$ (也就是实验组的人的拟合结果平均一下). 这对于多维的 $X$ 也是有偏差的. 它的偏差可以估计为 $\begin{aligned} {\hat{B}}_{T} = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} {\hat{B}}_{T, i}, \\ {\hat{B}}_{T, i} = \frac{1}{M} \sum_{k \in J_{i}} {{\hat{μ}}_{0} (X_{i}) - {\hat{μ}}_{0} (X_{k})} . \end{aligned}$ 最终修正偏差的估计量是 ${\hat{τ}}_{T}^{mbc} = {\hat{τ}}_{T}^{m} - {\hat{B}}_{T},$ 也有线性展开:

命题

我们有 $\begin{aligned} {\hat{τ}}_{T}^{mbc} = \frac{1}{n_{1}} \sum_{i = 1}^{n} {\hat{ψ}}_{T, i}, \\ {\hat{ψ}}_{T, i} = Z_{i} {Y_{i} - {\hat{μ}}_{0} (X_{i})} - (1 - Z_{i}) \frac{K_{i}}{M} {Y_{i} - {\hat{μ}}_{0} (X_{i})} . \end{aligned}$

我们可以把 ${\hat{τ}}_{T}^{mbc}$ 看作 $\frac{n}{n_{1}}$ 乘以 ${\hat{ψ}}_{T, i}$ 的样本均值, 所以一个直观的方差估计量是 ${\hat{V}}_{T}^{mbc} = {(\frac{n}{n_{1}})}^{2} \frac{1}{n^{2}} \sum_{i = 1}^{n} {({\hat{ψ}}_{T, i} - {\hat{τ}}_{T}^{mbc} \frac{n_{1}}{n})}^{2} = \frac{1}{n_{1}^{2}} \sum_{i = 1}^{n} {({\hat{ψ}}_{T, i} - {\hat{τ}}_{T}^{mbc} \frac{n_{1}}{n})}^{2} .$
类似前面的讨论, 我们能把双重稳健/偏差修正的配对估计量, 和结果回归估计量比较. 回顾 $\begin{aligned} {\hat{τ}}_{T}^{reg} = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} {Y_{i} - {\hat{μ}}_{0} (X_{i})}, \\ {\hat{τ}}_{T}^{dr} = {\hat{τ}}_{T}^{reg} - \frac{1}{n_{1}} \sum_{i = 1}^{n} \frac{\hat{e} (X_{i})}{1 - \hat{e} (X_{i})} (1 - Z_{i}) {\hat{R}}_{i} . \end{aligned}$ 进一步地, 我们可以验证 ${\hat{τ}}_{T}^{mbc}$ 形式类似 ${\hat{τ}}_{T}^{dr}$ .

命题

${\hat{τ}}_{T}^{mbc} = {\hat{τ}}_{T}^{reg} - \frac{1}{n_{1}} \sum_{i = 1}^{n} \frac{K_{i}}{M} (1 - Z_{i}) {\hat{R}}_{i} .$

这说明本质上匹配用了 $\frac{K_{i}}{M}$ 来估计接受实验处理的几率.