2.3 随机实验中的分层与后分层

1 分层

CRE 可能会给出不理想的分组方式. 定义一个离散的协变量 $X_{i} \in {1, \dots, K}$ , 并定义 $n_{[k]} = # {i : X_{i} = k}$ , $π_{[k]} = \frac{n_{[k]}}{n}$ 为 $X_{i} = k$ 的个数和比例. 在这里我们相当于借助某个协变量, 对实验单元进行了分层. 在实验组、对照组中, $n_{[k] 1} = # {i : X_{i} = k, Z_{i} = 1}, n_{[k] 0} = # {i : X_{i} = k, Z_{i} = 0} .$
自然 $n_{[k]} = n_{[k] 1} + n_{[k] 0}$ . 平均来说 $E (\frac{n_{[k] 1}}{n_{1}} - \frac{n_{[k] 0}}{n_{0}}) = 0,$ 但是一般来说在实验组、对照组中它们的差值是显著的.

为了让协变量保持均衡, 我们定义 分层随机化实验 (stratified randomized experiments, SRE)

SRE

固定 $n_{[k] 1}, n_{[k] 0}$ . 在协变量 $X$ 的 $K$ 个分层中, 我们分别执行一次独立的 CRE.

因此在 CRE 中, 总的随机化个数为 $\prod_{k = 1}^{K} (\binom{n_{[k]}}{n_{[k] 1}})$ , 每一个随机化等可能. 在每一个分层 $k$ 中, 实验组的比例为 $e_{[k]} = \frac{n_{[k] 1}}{n_{[k]}},$ 这称为 倾向得分 (propensity score).

有了协变量, 我们知道 SRE 只是 CRE 的子集, 也即 $\prod_{k = 1}^{K} (\binom{n_{[k]}}{n_{[k] 1}}) < (\binom{n}{n_{1}})$ . 此外 SRE 中 $e_{[k]}$ 是固定的, 而 CRE 中是随机的.

同样可以定义潜在输出 $Y_{i} (1), Y_{i} (0)$ 和个体因果效应 $τ_{i} = Y_{i} (1) - Y_{i} (0)$ . 对分层 $k$ , 定义分层平均因果效应 $τ_{[k]} = \frac{1}{n_{[k]}} \sum_{X_{i} = k} τ_{i},$ 因此有 $τ = \frac{1}{n} \sum_{i = 1}^{n} τ_{i} = \frac{1}{n} \sum_{k = 1}^{K} \sum_{X_{i} = k} τ_{i} = \sum_{k = 1}^{K} π_{[k]} τ_{[k]} .$
接下来我们讨论对 $τ$ 的统计推断.

2 FRT

同样我们考虑 SRE 中的 FRT. 零假设依然为 $H_{0 F} : Y_{i} (1) = Y_{i} (0), \forall i = 1, \dots, n .$
同样地我们可以取任何检验量 $T = T (Z, Y, X)$ . 下面是一些常用的.

分层估计量（stratified estimator）

${\hat{τ}}_{S} = \sum_{k = 1}^{K} π_{[k]} {\hat{τ}}_{[k]}, $ $ 这里 $ $ {\hat{τ}}_{[k]} = \frac{1}{n_{[k] 1}} \sum_{i = 1}^{n} 1 {X_{i} = k, Z_{i} = 1} Y_{i} - \frac{1}{n_{[k] 0}} \sum_{i = 1}^{n} 1 {X_{i} = k, Z_{i} = 0} Y_{i} .$

t 分层估计量 (studentized stratified estimator)

$t_{S} = \frac{{\hat{τ}}_{S}}{\sqrt{{\hat{V}}_{S}}}, $ $ 这里 $ $ {\hat{V}}_{S} = \sum_{k = 1}^{K} π_{[k]}^{2} (\frac{{\hat{S}}_{[k]}^{2} (1)}{n_{[k] 1}} + \frac{{\hat{S}}_{[k]}^{2} (0)}{n_{[k] 0}}) .$

组合 Wilcoxon 秩和统计量

首先计算 $k$ 层的 Wilcoxon秩和统计量 $W_{[k]}$ , 组合为 $W_{S} = \sum_{k = 1}^{K} c_{[k]} W_{[k]} .$ 两个可行的权重系数为 $c_{[k]} = \frac{1}{n_{[k] 1} n_{[k] 0}}, c_{[k]} = \frac{1}{n_{[k]} + 1} .$

Hodges, Lehmann 对齐的秩统计量 (aligned rank statistic)

对于很多的小层, 在层间进行更多的对比. $X_{i} = k$ 时定义中心化的 ${\tilde{Y}}_{i} = Y_{i} - {\overset{―}{Y}}_{[k]}, {\overset{―}{Y}}_{[k]} = \frac{1}{n_{[k]}} \sum_{X_{i} = k} Y_{i},$ 然后得到结果 $({\tilde{Y}}_{1}, \dots, {\tilde{Y}}_{n})$ 的秩 $({\tilde{R}}_{1}, \dots, {\tilde{R}}_{n})$ , 最后定义 $\tilde{W} = \sum_{i = 1}^{n} Z_{i} {\tilde{R}}_{i} .$

3 Neyman 推断

SRE 本质上是 $K$ 个独立的 CRE, 因此沿用 Neyman定理, $Var ({\hat{τ}}_{[k]}) = \frac{S_{[k]}^{2} (1)}{n_{[k] 1}} + \frac{S_{[k]}^{2} (0)}{n_{[k] 0}} - \frac{S_{[k]}^{2} (τ)}{n_{[k]}} .$ 这样 ${\hat{τ}}_{S} = \sum_{k = 1}^{K} π_{[k]} {\hat{τ}}_{[k]}$ 是 $τ = \sum_{k = 1}^{K} π_{[k]} τ_{[k]}$ 的无偏估计, 且 $Var ({\hat{τ}}_{S}) = \sum_{k = 1}^{K} π_{[k]}^{2} Var ({\hat{τ}}_{[k]}) .$

3.1 比较 SRE 与 CRE

为了公平对比, 我们让所有的 $k$ 都有相同的倾向得分 $e_{[k]} = e$ .

下面比较样本方差. 首先 $\begin{aligned} S^{2} (1) & = \frac{1}{n - 1} \sum_{i = 1}^{n} {Y_{i} (1) - \overset{―}{Y} (1)}^{2} \\ = \frac{1}{n - 1} \sum_{k = 1}^{K} \sum_{X_{i} = k} {Y_{i} (1) - {\overset{―}{Y}}_{[k]} (1) + {\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2} \\ = \frac{1}{n - 1} \sum_{k = 1}^{K} \sum_{X_{i} = k} [{Y_{i} (1) - {\overset{―}{Y}}_{[k]} (1)}^{2} + {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2}] \\ = \sum_{k = 1}^{K} [\frac{n_{[k]} - 1}{n - 1} S_{[k]}^{2} (1) + \frac{n_{[k]}}{n - 1} {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2}] . \end{aligned}$ 类似地 $\begin{aligned} S^{2} (0) & = \sum_{k = 1}^{K} [\frac{n_{[k]} - 1}{n - 1} S_{[k]}^{2} (0) + \frac{n_{[k]}}{n - 1} {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}^{2}], \\ S^{2} (τ) & = \sum_{k = 1}^{K} [\frac{n_{[k]} - 1}{n - 1} S_{[k]}^{2} (τ) + \frac{n_{[k]}}{n - 1} {τ_{[k]} - τ}^{2}] . \end{aligned}$
回顾 CRE 的方差 (还是在 Neyman定理中) 然后代入上面的结果: $\begin{aligned} {Var}_{CRE} (\hat{τ}) = \frac{S^{2} (1)}{n_{1}} + \frac{S^{2} (0)}{n_{0}} - \frac{S^{2} (τ)}{n} \\ = & \sum_{k = 1}^{K} [\frac{n_{[k]} - 1}{(n - 1) n_{1}} S_{[k]}^{2} (1) + \frac{n_{[k]} - 1}{(n - 1) n_{0}} S_{[k]}^{2} (0) - \frac{n_{[k]} - 1}{(n - 1) n} S_{[k]}^{2} (τ) \\ + \frac{n_{[k]} - 1}{(n - 1) n_{1}} {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2} + \frac{n_{[k]} - 1}{(n - 1) n_{0}} {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}^{2} \\ - \frac{n_{[k]} - 1}{(n - 1) n} {τ_{[k]} - τ}^{2}] \\ \approx & \sum_{k = 1}^{K} [\frac{π_{[k]}}{n_{1}} S_{[k]}^{2} (1) + \frac{π_{[k]}}{n_{0}} S_{[k]}^{2} (0) - \frac{π_{[k]}}{n} S_{[k]}^{2} (τ) \\ + \frac{π_{[k]}}{n_{1}} {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2} + \frac{π_{[k]}}{n_{0}} {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}^{2} - \frac{π_{[k]}}{n} {τ_{[k]} - τ}^{2}] . \end{aligned}$
(近似发生在 $n_{[k]}$ 很大的时候).
而在 SRE 中, 由于 $\frac{π_{[k]}}{n_{[k] 1}} = \frac{1}{n e}$ , $\frac{π_{[k]}}{n_{[k] 0}} = \frac{1}{n (1 - e)}$ , $\frac{π_{[k]}}{n_{[k]}} = \frac{1}{n}$ , 因此 $\begin{aligned} {Var}_{SRE} ({\hat{τ}}_{S}) & = \sum_{k = 1}^{K} π_{[k]}^{2} [\frac{S_{[k]}^{2} (1)}{n_{[k] 1}} + \frac{S_{[k]}^{2} (0)}{n_{[k] 0}} - \frac{S_{[k]}^{2} (τ)}{n_{[k]}}] \\ = \sum_{k = 1}^{K} [\frac{π_{[k]}}{n_{1}} S_{[k]}^{2} (1) + \frac{π_{[k]}}{n_{0}} S_{[k]}^{2} (0) - \frac{π_{[k]}}{n} S_{[k]}^{2} (τ)], \end{aligned}$
因此在 $n_{[k]}$ 很大的时候 $\begin{aligned} {Var}_{CRE} (\hat{τ}) - {Var}_{SRE} ({\hat{τ}}_{S}) \\ = & \sum_{k = 1}^{K} π_{[k]} [\frac{{{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2}}{n_{1}} + \frac{{{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}^{2}}{n_{0}} - \frac{(τ_{[k]} - τ)^{2}}{n}] \\ = & \sum_{k = 1}^{K} \frac{π_{[k]}}{n} {[\sqrt{\frac{n_{0}}{n_{1}}} {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)} + \sqrt{\frac{n_{1}}{n_{0}}} {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}]}^{2} \geq 0. \end{aligned}$

推导

我们推导最后一个等号. 右边为 $\sum_{k = 1}^{K} \frac{π_{[k]}}{n} [\frac{n_{0}}{n_{1}} {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2} + \frac{n_{1}}{n_{0}} {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}^{2} + 2 {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)} {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}],$ 左边为 $\sum_{k = 1}^{K} \frac{π_{[k]}}{n} [(1 + \frac{n_{0}}{n_{1}}) {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2} + (1 + \frac{n_{1}}{n_{0}}) {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}^{2} - (τ_{[k]} - τ)^{2}] .$ 左边减右边为 $\begin{aligned} \sum_{k = 1}^{K} \frac{π_{[k]}}{n} [{{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)}^{2} + {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)}^{2} - 2 {{\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)} {{\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0)} \\ - (τ_{[k]} - τ)^{2}] \\ = & \sum_{k = 1}^{K} \frac{π_{[k]}}{n} [{({\overset{―}{Y}}_{[k]} (1) - \overset{―}{Y} (1)) - ({\overset{―}{Y}}_{[k]} (0) - \overset{―}{Y} (0))}^{2} - (τ_{[k]} - τ)^{2}] = 0. \end{aligned}$ (回顾 $τ_{[k]} = {\overset{―}{Y}}_{[k]} (1) - {\overset{―}{Y}}_{[k]} (0)$ , $τ = \overset{―}{Y} (1) - \overset{―}{Y} (0)$ )

这说明 SRE 总是有一个更小的方差, 结果更加稳定.

4 CRE 的后分层

如果给定 $\vec{n} = {n_{[k] 1}, n_{[k] 0}}_{k = 1}^{K}$ , CRE 成为 SRE: $P_{CRE} (Z = z | \vec{n}) = \frac{P_{CRE} (Z = z, \vec{n})}{P_{CRE} (\vec{n})} = {(\prod_{k = 1}^{K} (\binom{n_{[k]}}{n_{[k] 1}}))}^{- 1} .$
也即这和 SRE 中 $Z$ 的分布完全一致. 也即在 $\vec{n}$ 上做条件概率, 可以把 CRE 当成 SRE 来做. 此时 FRT 变成条件 FRT, Neyman 分析变成后分层: ${\hat{τ}}_{PS} = \sum_{k = 1}^{K} π_{[k]} {\hat{τ}}_{[k]} .$ 这与 ${\hat{τ}}_{S}$ 形式相同, $Var ({\hat{τ}}_{PS} | \vec{n})$ 也和 $\hat{τ_{S}}$ 一样.