2.5 配对实验

配对实验 (matched-pairs experiment, MPE) 是 SRE 的最极端的版本. 每个分层中, 只有一个实验单元和一个对照单元.

1 实验设计和潜在结果

考虑一个 2n 单元的实验. 如果我们的协变量是用于预测结果的, 我们可以把实验单元基于协变量的相似度进行配对.

(i,j) 表示配对 i 中的单元 j, 这里 i=1,,n, j=1,2. 则它有潜在结果 Yij(1), Yij(0). 在每个配对里面, 我们随机指派一个单元接受实验, 一个接受控制. 记 Zi={1,第一个单元接受实验,2,第二个单元接受实验.
我们可以正式定义 MPE:

MPE

定义 (1.1)(Zi)i=1ni.i.dBernoulli(12).则配对 i 的观测结果是 Yi1=ZiYi1(1)+(1Zi)Yi1(0)={Yi1(1),Zi=1,Yi1(0),Zi=0,Yi2=ZiYi2(0)+(1Zi)Yi2(1)={Yi2(0),Zi=1,Yi2(1),Zi=0. 最后观测到的结果为 (Zi,Yi1,Yi2)i=1n.

2 FRT

类似之前, 我们依然用 FRT 检验 H0F:Yij(1)=Yij(0),i=1,,n,j=1,2.
这里我们要模拟 (Z1,,Zn) 的分布 (1.1). 则τ^i=实验组结果控制组结果=(2Zi1)(Yi1Yi2)=Si(Yi1Yi2), 这里 Si=2Zi1 是独立同分布的 0 均值、1 方差的变量. 在 FRT 中我们丢弃那些 τ^i=0 的配对, 因为它们不对随机化分布做贡献.

配对 t 统计量

配对内差值的均值是 τ^=1ni=1nτ^i.H0F 下, E(τ^)=0, 且Var(τ^)=1n2i=1nVar(τ^i)=1n2i=1nVar(Si)(Yi1Yi2)2=1n2i=1nτ^i2. 基于 CLT, 我们有正态逼近 τ^n2i=1nτ^i2dN(0,1). 我们可以借此构造一个渐近意义下的检验: tpair=τ^{n(n1)}1i=1n(τ^iτ^)2, 这在 H0F 下有大 n 和小 τ^ 时几乎就等于 τ^.

在传统统计学中, 当 τ^ii.i.dN(0,σ2), 我们可以证明 tpairt(n1), 也即 tpair 的实际自由度是 n1, 这很接近 N(0,1).

Wilcoxon 符号秩统计量

基于 (|τ^1|,,|τ^n|) 的排序 (R1,,Rn), 我们可以定义 W=i=1n1{τ^i>0}Ri.H0F 下, |τ^i|,Ri 固定, 因此 E(W)=12i=1nRi=12i=1ni=n(n+1)4, 以及 Var(W)=14i=1nRi2=n(n+1)(2n+1)24. 根据 CLT, Wn(n+1)4n(n+1)(2n+1)24dN(0,1).

m10Binomial(m10+m01,12). 在 CLT 下 m10m10+m012m10+m014=m10m01m10+m01dN(0,1).

3 Neyman 推断

定理 1

在 MPE 下, V^τ^ 的保守估计: E(V^)Var(τ^)=1n(n1)i=1n(τiτ)20. 如果 τi 都相同, 则 E(V^)=Var(τ^).

定理说明, 在 MPE 下, V^ 是一个保守的方差估计量, 且在各个配对的平均因果效应相同的情况下是无偏估计. 我们可以看到 V^ 依赖配对间的方差, Var(τ^) 依赖配对内的方差.

类似其他实验, 我们可以得到 τ^τVar(τ^)dN(0,1). 因此 Wald 置信区间 τ^±z1α2V^ 有至少 1α 的概率覆盖 τ.

命题

τ^, V^ 分别等于 (τ^1,,τ^n)T 对截距进行 OLS 得到的估计量和方差估计量.

4 协变量调整

有时候我们的配对并不完美, 或者我们有其他的协变量, 在配对的时候没有考虑. 此时我们可以调整协变量, 来更好提升估计效率. 假设每一个 (i,j) 有协变量 Xij. 类似 CRE 的讨论, 我们可以有 FRT 和回归调整.

4.1 FRT

类似 伪结果策略, 我们可以基于将结果对协变量拟合后的残差来构建检验量(在 H0F 下这些残差固定不变). 例如, 用 YijXij 进行 OLS 得到 e^ij, 然后将它作为观测结果, 构建检验量.
类似 模型结果策略, 我们也可以将某种系数作为检验量.

4.2 回归调整

现在我们关注估计 τ. 计算配对内的差值 τ^X,i, 以及他们的平均值 τ^X. 可以得到E(τ^X,i)=0,E(τ^X)=0,(4.1)Cov(τ^X)=1n2i=1nτ^X,iτ^X,iT. 所以在实际中, 除非所有 τ^X,i 都为 0, 不然 Cov(τ^X)0. 如果我们的采样 (Z1,,Zn) 非常不幸, 那可能 τ^X0 很远. 类似 2.4 重随机化 回归调整, 可以通过调整协变量的不平衡来提升估计效率. 考虑 τ^(γ)=τ^γTτ^X, 它对任何固定的 γ 都有均值 0. 选取 γ 来最小化 τ^(γ) 的方差: Var(τ^(γ))=Var(τ^)+γTCov(τ^X)γ2γTCov(τ^X,τ^), 它的最小值点为 γ~=Cov(τ^X)1Cov(τ^X,τ^).
将 (4.1) 改写为 Cov(τ^X)=1n2i=1n|τ^X,i||τ^X,i|T, 这里 || 对向量的每个分量取绝对值. 因此 Cov(τ^X) 固定且已知, 但 Cov(τ^X,τ^) 依赖未知的潜在结果.
幸运的是, 我们可以得到一个它的无偏估计:

定理 2

Cov(τ^X,τ^) 的一个无偏估计是 θ^=1n(n1)i=1n(τ^X,iτ^X)(τ^iτ^).

它的证明和之前的 定理1 相似.
因此, 我们可以估计 γ~γ^=(1n2i=1nτ^X,iτ^X,iT)1[1n(n1)i=1n(τ^X,iτ^X)(τ^iτ^)](i=1n(τ^X,iτ^X)(τ^X,iτ^X)T)1i=1n(τ^X,iτ^X)(τ^iτ^),
这近似是 τ^iτ^X,i 上 OLS 后 τ^X,i 上的系数. 最后的估计量为 τ^adj=τ^(γ^)=τ^γ^Tτ^X, 根据 OLS 的性质, 这就是 τ^iτ^X,i 上 OLS 的截距. 则它的一个方差保守估计量是 V^adj=V^+γ^TCov(τ^X)γ^2γ^Tθ^=V^θ^TCov(τ^X)1θ^.

命题

在 MPE 下, τ^adj,V^adj 可以方便地进行近似: 将 τ^i 对一个全 1 向量及 τ^X,i 进行 OLS 拟合, 取截距和相关方差估计量.

一般的配对实验

现在假设我们有 n 个配对集合, 每个集合下有 1+Mi 个单元, 因此总共有 N=n+i=1nMi 个单元. 用 ij 表示单元, i=1,,n, j=1,,Mi+1. 潜在输出为 Yij(1),Yij(0).
在集合 i 下, 随机选一个单元接受实验, 剩下 Mi 个作为对照组. 这样的设置也是 SRE 的特别案例, 有 n 个大小为 1+Mi 的分层. 则 Yij=ZijYij(1)+(1Zij)Yij(0). 平均因果效应 τi=1Mi+1j=11+Mi{Yij(1)Yij(0)}. 因为这是 SRE, 我们有无偏估计 τ^i=j=1Mi+1ZijYij1Mij=1Mi+1(1Zij)Yij.

FRT

我们依然可以有如下零假设 H0F:Yij(1)=Yij(0),i=1,,n,j=1,,Mi+1.
所以我们可以用之前 SRE 中的那些检验统计量. 此外我们在下面介绍一些特供的.

层内因果效应均值的估计

τ=1ni=1nτi 有无偏估计 τ^=1ni=1nτ^i. 有趣的是, 我们可以证明 定理1 对于一般的配对实验成立, 同样其他 MPE 的结论也是. 特别地, 我们可以用 τ^i 对截距的 OLS 拟合来得到 τ 的点估计和方差估计. 在协变量下, 用 τ^i 在截距和 τ^X,i 的 OLS 拟合, 这里 τ^X,i=j=1Mi+1ZijXij1Mij=1Mi+1(1Zij)Xiji 下对应的协变量均值之差.

一个更一般的因果目标参数

注意到平均的因果效应应该是 τ=1Ni=1nj=11+Mi{Yij(1)Yij(0)}=i=1n1+MiNτi, 而非上面的 τ. 我们考虑加权的因果效应 τw=i=1nwiτi,i=1nwi=1. 这样 τ,τ 都是它的特例. 我们容易得到无偏估计和方差 τ^w=i=1nwiτ^i,Var(τ^w)=i=1nwi2Var(τ^i).
但是估计方差比较困难, 因为这里的 τ^i 都是独立的, 没有重复观测值. 在这里直接给出估计量 V^w=i=1nci(τ^iτ^w)2,ci=wi212wi1+i=1nwi212wi. 我们大致检查一下, 在 MPE 下, Mi=1,wi=1n, 因此 ci=1n(n1).
方便起见, 我们认为 wi<12,i (也即没有集合占据了一大半的单元). 下面给出定理 1 的推广

定理 3

E(V^w)Var(τ^w)=i=1nci(τiτw)2Var(τ^w)0.$$$τi$.