3.6 观察性实验中的匹配

本节讲的算法其实有个名字 Propensity score matching (PSM), 这是业界很常用的算法.

1 一个出发点: 远远更多的对照单元

Pasted image 20260329125558.png|350

如果在实验/对照的观察性实验中, 对照组的单元数量 n0n1. 对实验组的 i=1,,n1, 我们在对照组找一个 m(i) 使得协变量 Xi=Xm(i). 理想情况下这是个双射, 且倾向得分 e(Xi)=e(Xm(i)). 因此 P(Zi=1,Zm(i)=0|Zi+Zm(i)=1,Xi,Xm(i))=12.

也即给定一一分配到两个组的要求和协变量, 实验组分配和 MPE 一致. 这样我们可以用 FRT 或者 Neyman 等方法当作 MPE 一样分析.
但因为 n0n1, 我们可以找到 Mi 个匹配的对照组. 如果 Mi 会变化, 这称为 可变比例匹配 (variable-ratio matching).
如果是完美匹配, 我们可以用 MPE 那套分析. 但是大多数情况下 Xi=Xm(i) 并不能对所有单元成立.

2 一个更复杂但现实的情形

即使对照组很大, 我们也经常得不到完美的匹配. 我们只能得到 XiXm(i), 或者 XiXm(i) 在某些距离度量下很小. 例如我们定义 m(i)=argmink:Zk=0d(Xi,Xk), 这里 d(Xi,Xk) 是个距离度量. 通常的取法是 d(Xi,Xk)=(XiXk)T(XiXk) 或 Mahalanobis 距离 d(Xi,Xk)=(XiXk)TΩ1(XiXk), 这里 ΩXi 的协方差矩阵 (可以是整个群体或者仅仅对照组).
这里有一些问题.

  1. 拓展到一对 M 的讨论.
  2. 无放回匹配的讨论. 我们主要用的是有放回匹配, 通常匹配质量更高, 但是一个单元可能会被匹配多次, 引入了数据依赖性. 而无放回匹配虽然涉及计算量巨大的离散优化, 但是匹配单元间更有独立性.
  3. 匹配后的数据协变量依然有细微差异, 所以要在匹配的数据上跑 OLS, 抹平残差.
  4. 纬度灾难: 如果 Xi 是高维的, 则 d(Xi,Xk) 可能一直很大. 此时我们不得不删去难以匹配的单元, 但这也改变了我们感兴趣的研究人群.
    上述问题很难避免. 例如, 如果 Xi,Xki.i.dN(0,Ip), 则 (XiXk)T(XiXk)2χp2, 这意味着它有均值 2p 和方差 8p. 对于大的 p, 不完美的匹配会带来因果效应的更大偏差. 所以我们必须要进行一些降维, 而倾向得分就可以在这里使用.

3 平均因果效应的匹配估计量

我们取标准的观察性实验设置 {Xi,Zi,Yi(1),Yi(0)}i.i.d{X,Z,Y(1),Y(0)}.

3.1 点估计和偏差修正

我们考虑有放回的 1M 配对. 对实验单元 i, 我们可以把潜在结果归因为 Y^i(0)=1MkJiYk, 这里 Jii 在对照组中的匹配单元. 例如, 我们可以对对照组的所有 k 计算 d(Xi,Xk), 然后定义 Ji 是所有让 d 最小的 k 的集合.
对对照单元 i, 我们可以简单令 Y^i(0)=Yi, 然后令 Y^i(1)=1MkJiYk, 这里 Jii 在实验组中的匹配单元.
匹配估计量为 τ^m=1ni=1n{Y^i(1)Y^i(0)}. 它的偏差实际上是不可忽略的, 特别当 X 是多维的, 且实验/对照组单元数量相当. 我们可以用下面的估计量来估计偏差: B^=1ni=1nB^i,B^i=2Zi1MkJi{μ^1Zi(Xi)μ^1Zi(Xk)}, 这里 {μ^1(Xi),μ^0(Xi)} 是预测的结果, 例如用 OLS.
对实验单元 Zi=1, 估计的偏差是 B^i=1MkJi{μ^0(Xi)μ^0(Xk)}, 它修正了协变量错误匹配带来的对照组潜在结果的差距; 类似地对对照单元 Zi=0, B^i=1MkJi{μ^1(Xi)μ^1(Xk)}. 最后修正偏差了的估计量为 τ^mbc=τ^mB^, 它有如下的线性展开.

命题

我们有 (3.1)τ^mbc=1ni=1nψ^i, 其中 ψ^i=μ^1(Xi)μ^0(Xi)+(2Zi1)(1+KiM){Yiμ^Zi(Xi)},Kii 单元被匹配的次数.

这个线性展开导出一个简单的方差估计量. 把 τ^mbc 看作 ψ^i 的样本均值, 我们有 V^mbc=1n2i=1n(ψ^iτ^mbc)2,

3.2 与双重稳健估计量的关联

偏差修正的匹配估计量和双重稳健估计量有紧密的关联. 如果我们修改一下残差 R^i={Yiμ^1(Xi),Zi=1,Yiμ^0(Xi),Zi=0, 则它们都和这个结果回归估计量相同.
对平均因果效应, 回顾 结果回归估计量双重稳健估计量 τ^dr=τ^reg+1ni=1n{ZiR^ie^(Xi)(1Zi)R^i1e^(Xi)}. 进一步地 τ^mbc 形式类似 τ^dr:

命题

τ^mbc=τ^reg+1ni=1n{(1+KiM)ZiR^i(1+KiM)(1Zi)R^i}.

从这个命题, 我们可以把匹配看作一个倾向得分的非参数估计方式, 得到的 τ^mbc 看作一个双重稳定估计量. 例如, 1+KiM 应该接近 1e^(Xi). 当实验单元有小的 e(Xi) 时, 1e^(Xi) 会很大, 它会匹配到很多对照单元, 导致大的 Ki 以及大的 1+KiM. 但是这种连接也会有一个显然的问题. 如果固定 M, 则用 1+KiM 估计 1e(Xi) 会有"很大噪音" (也即估计量方差大, 极不稳定, 因为你观察的数据是有限的、定死的). 所以我们必须要要求 M 随着样本量一起增大才可能提升这个估计量的表现.

4 实验组中平均因果效应的匹配估计量

对实验组的平均因果效应 τT=E[Y|Z=1]E[Y(0)|Z=1], 对于缺失的潜在结果, 用对照组的进行填补即可: τ^Tm=1n1i=1nZi{YiY^i(0)} (也就是实验组的人的拟合结果平均一下). 这对于多维的 X 也是有偏差的. 它的偏差可以估计为 B^T=1n1i=1nZiB^T,i,B^T,i=1MkJi{μ^0(Xi)μ^0(Xk)}. 最终修正偏差的估计量是 τ^Tmbc=τ^TmB^T, 也有线性展开:

命题

我们有τ^Tmbc=1n1i=1nψ^T,i,ψ^T,i=Zi{Yiμ^0(Xi)}(1Zi)KiM{Yiμ^0(Xi)}.

我们可以把 τ^Tmbc 看作 nn1 乘以 ψ^T,i 的样本均值, 所以一个直观的方差估计量是 V^Tmbc=(nn1)21n2i=1n(ψ^T,iτ^Tmbcn1n)2=1n12i=1n(ψ^T,iτ^Tmbcn1n)2.
类似 前面的讨论, 我们能把双重稳健/偏差修正的配对估计量, 和结果回归估计量比较. 回顾τ^Treg=1n1i=1nZi{Yiμ^0(Xi)},τ^Tdr=τ^Treg1n1i=1ne^(Xi)1e^(Xi)(1Zi)R^i. 进一步地, 我们可以验证 τ^Tmbc 形式类似 τ^Tdr.

命题

τ^Tmbc=τ^Treg1n1i=1nKiM(1Zi)R^i.

这说明本质上匹配用了 KiM 来估计接受实验处理的几率.