3.1 观察性实验 选择偏差 因果效应的非参数识别

如果我们要阐明因果关系, 且对照实验不可行, 我们可以考虑观察性实验.

1 潜在结果下的因果效应和选择偏差

对单元 i(i=1,,n), 我们有处理前协变量 Xi, 指示是否处理的变量 Zi, 观测结果 Yi (Yi(1),Yi(0)). 假设 {Xi,Zi,Yi(1),Yi(0)}i=1ni.i.d{X,Z,Y(1),Y(0)}. 这样我们去掉下标 i, 定义 τ=E[Y(1)Y(0)], 以及两个组τT=E[Y(1)Y(0)|Z=1],τC=E[Y(1)Y(0)|Z=0].
根据 (1.1), τT=E(Y|Z=1)E(Y(0)|Z=1),τC=E(Y(1)|Z=0)E(Y|Z=0). [1]

定义简单均值之差[2] τPF=E(Y|Z=1)E(Y|Z=0)=E(Y(1)|Z=1)E(Y(0)|Z=0).
这样,τPFτT=E[Y(0)|Z=1]E[Y(0)|Z=0],τPFτC=E[Y(1)|Z=1]E[Y(1)|Z=0] 通常不是 0, 它们可以用来量化选择偏差.

2.7节 中, 我们在 CRE 中假定 Z {Y(1),Y(0)}, 则 (1.1)τPF=τT=τC=τ.
从上面的讨论看出, 随机化最主要的好处是平衡潜在结果在两个组中的分布, 这比起观测协变量的平衡要远远更强. 如果没有随机化, 选择偏差可能会很大. 这便是观察性实验本质的难点所在.

2 因果效应非参数检验的充分条件

2.1 可识别性

观察性实验的因果推断很有挑战, 它依赖很强的假设. 我们可以用处理前协变量的信息, 假设E[Y(0)|Z=1,X]=E[Y(0)|Z=0,X],(2.1)E[Y(1)|Z=1,X]=E[Y(1)|Z=0,X].
这个假设说明, 两个组潜在结果的差别, 完全源于观察到协变量的差别. 所以如果协变量的值给的是一样的, 潜在结果在两组的均值应该一样. 数学上看, 这说明了 (1.1) 的条件版本是一样的: τ(X)=τT(X)=τC(X)=τPF(X), 这里τ(X)=E[Y(1)Y(0)|X],τT(X)=E[Y(1)Y(0)|Z=1,X],τC(X)=E[Y(1)Y(0)|Z=0,X],τPF(X)=E[Y|Z=1,X]E[Y|Z=0,X]. 特别地, τ(X) 经常被叫成 条件平均因果效应 (CATE).

可识别性

参数 θ可识别的, 如果它可以被写成观测数据分布的函数.
θ非参数可识别的, 如果它的函数表达不需要任何参数模型假设.[3]

例如

可识别性在观察性实验中是至关重要的. 特别地, τ=E[Y(1)Y(0)] 本身无法判断是否可识别. 但是在假设 (2.1) 下, 它是非参数可识别的.

接下来如果不加特别说明, 我们关注 τ.

定理 2.1

(2.1) 下, τ=E[τ(X)](2.2)=E{E[Y|Z=1,X]E[Y|Z=0,X]}={E[Y|Z=1,X=x]E[Y|Z=0,X=x]}f(x)dx.

对于离散的协变量, 可以写成τ=xE[Y|Z=1,X=x]P(X=x)xE[Y|Z=0,X=x]P(X=x), 以及 τPF=xE[Y|Z=1,X=x]P(X=x|Z=1)xE[Y|Z=0,X=x]P(X=x|Z=0).
我们通常会给出一个更强的假设:

假设 (可忽略性)

Y(z)Z|X,z=0,1.

有时候还会有一个更强的假设:

假设 (强可忽略性)

{Y(1),Y(0)}Z|X.

2.2 可忽略性假设的合理性

可忽略性要求, 找到 X 之后, 剩下实验单元的分组就不会存在混杂变量了, 也即随机性造成的影响可忽略. 我们可以基于数据生成的流程来解释这个假设: 如果 Y(1)=g1(X,V1),Y(0)=g0(X,V0),Z=1{g(X,V)0}, 这里 (V1,V0)V, 则 可忽略性强可忽略性 就都成立. 这里 "通常的诱因" X 和结果都被观测到了, 剩下的随机的部分彼此独立. 而如果是 Y(1)=g1(X,U,V1),Y(0)=g0(X,U,V0),Z=1{g(X,U,V)0}, 这里 (V1,V0)V, 则那两个假设一般不成立, 因为 U 是个没有被测量到的诱因

3 两个简单的估计策略和它们的缺陷

3.1 基于离散协变量的分层或标准化

如果协变量 Xi{1,,K} 是离散的, 则 可忽略性 表示为 Y(z)Z|X=k,(z=0,1;k=1,,K), 这本质上假设观察性研究是一个在 超总体 下的 SRE. 因此我们用估计量 τ^=k=1Kπ[k]{Y^[k](1)Y^[k](0)}, 这和之前讲的 分层/后分层 一样.
这个方法依然广泛在实践中被采用.

3.2 结果回归

结果回归中最常用的方法是如下的回归: E[Y|Z,X]=β0+βzZ+βxTX. 如果这个线性模型正确, 则τ(X)=E(Y|Z=1,X)E(Y|Z=0,X)=(β0+βz+βxTX)(β0+βxTX)=βz, 这表明因果效应的值与协变量无关. 再结合可忽略性, 就有 τ=E[τ(X)]=βz. 因此如果可忽略性成立、结果模型是线性的, 则平均因果效应就是 Z 的系数.
当然这两个条件也是比较强的. 这个结果其实即使在 CRE 中也不是最优的. 如果我们假设 E[Y|Z,X]=β0+βzZ+βxTX+βzxTXZ,τ(X)=E(Y|z=1,X)E(Y|Z=0,X)=(β0+βz+βxTX+βzxTX)(β0+βxTX)=βz+βzxTX, 再结合可忽略性 τ=E[τ(X)]=βz+βzxTE[X], 可以用 β^z+β^zxTX 来估计 (这里用了回归的系数和样本均值). 如果我们让 X=0, 则估计量就是 Z 的系数.

一般地, 我们可以用更复杂的模型来估计因果效应, 比如基于实验和对照数据构造预测量 μ^1(X),μ^0(X), 则 τ^(X)=μ^1(X)μ^0(X) 可以估计条件平均因果效应, 有时也称为 结果回归估计量; 以及 τ^reg=1ni=1n{μ^1(Xi)μ^0(Xi)} 估计平均因果效应.

二元结果的结果回归估计量

如果结果是二元的, 我们可以用 Logistic 模型 E(Y|Z,X)=P(Y=1|Z,X)=eβ0+βzZ+βxTX1+eβ0+βzZ+βxTX, 则基于系数 β^0,β^z,β^x, 有 τ^=1ni=1n{eβ^0+β^z+β^xTXi1+eβ^0+β^z+β^xTXieβ^0+β^xTXi1+eβ^0+β^xTXi}.
这个估计量不仅是 Logistic 模型中实验处理项的系数, 而是关于所有系数和协变量经验分布的非线性函数.


  1. 注意和 (1.1) 比, 这里没有 CRE 的条件, 所以条件期望里不能完全化为 Y. 我们把这里的 E(Y(1)|Z=0),E(Y(0)|Z=1) 称为反事实(counterfactuals). ↩︎

  2. 这里的 PF 代表 prima facie, 拉丁语, 意为基于第一印象. ↩︎

  3. 这个定义太抽象了, 后续我们会见到具体的例子. ↩︎