1 分层
CRE 可能会给出不理想的分组方式. 定义一个离散的协变量 , 并定义 , 为 的个数和比例. 在这里我们相当于借助某个协变量, 对实验单元进行了分层. 在实验组、对照组中,
自然 . 平均来说 但是一般来说在实验组、对照组中它们的差值是显著的.
为了让协变量保持均衡, 我们定义 分层随机化实验 (stratified randomized experiments, SRE)
固定 . 在协变量 的 个分层中, 我们分别执行一次独立的 CRE.
因此在 CRE 中, 总的随机化个数为 , 每一个随机化等可能. 在每一个分层 中, 实验组的比例为 这称为 倾向得分 (propensity score).
有了协变量, 我们知道 SRE 只是 CRE 的子集, 也即 . 此外 SRE 中 是固定的, 而 CRE 中是随机的.
同样可以定义潜在输出 和个体因果效应 . 对分层 , 定义分层平均因果效应 因此有
接下来我们讨论对 的统计推断.
2 FRT
同样我们考虑 SRE 中的 FRT. 零假设依然为
同样地我们可以取任何检验量 . 下面是一些常用的.
分层估计量(stratified estimator)
t 分层估计量 (studentized stratified estimator)
首先计算 层的 Wilcoxon秩和统计量 , 组合为 两个可行的权重系数为
Hodges, Lehmann 对齐的秩统计量 (aligned rank statistic)
对于很多的小层, 在层间进行更多的对比. 时定义中心化的 然后得到结果 的秩 , 最后定义
3 Neyman 推断
SRE 本质上是 个独立的 CRE, 因此沿用 Neyman定理, 这样 是 的无偏估计, 且
3.1 比较 SRE 与 CRE
为了公平对比, 我们让所有的 都有相同的倾向得分 .
下面比较样本方差. 首先 类似地
回顾 CRE 的方差 (还是在 Neyman定理 中) 然后代入上面的结果:
(近似发生在 很大的时候).
而在 SRE 中, 由于 , , , 因此
因此在 很大的时候
我们推导最后一个等号. 右边为 左边为 左边减右边为 (回顾 , )
这说明 SRE 总是有一个更小的方差, 结果更加稳定.
4 CRE 的后分层
如果给定 , CRE 成为 SRE:
也即这和 SRE 中 的分布完全一致. 也即在 上做条件概率, 可以把 CRE 当成 SRE 来做. 此时 FRT 变成条件 FRT, Neyman 分析变成后分层: 这与 形式相同, 也和 一样.