2.6 Fisher和Neyman推断的统一

在前面的章节中我们分别讨论了不同实验下的 Fisher, Neyman 推断:

Fisher 关注在强 $H_{0}$ 下, 有限样本算出来的 p 值;
Neyman 关注对平均因果效应的无偏估计和相对保守的置信区间.

由于它们都基于物理的随机化, 它们都被叫做基于随机化/实验设计的推断. 因为他们都关于有限的总体, 所以也可以叫有限总体推断.

本章我们将试图统一这两者.

1 CRE 下检验强和弱零假设

回顾 $H_{0 F} : Y_{i} (1) = Y_{i} (0), \forall i = 1, \dots, n$ , 它的 $p$ 值在这里介绍过. 由于假设检验和置信区间的对偶性, Neyman 给出了 $H_{0 N} : τ = 0 ⟺ H_{0 N} : \overset{―}{Y} (1) = \overset{―}{Y} (0),$ 基于 $t = \frac{\hat{τ}}{\sqrt{\hat{V}}}$ . 基于 $\hat{τ}$ 的 CLT 和方差估计量的保守性, 我们有 $t = \sqrt{\frac{Var (\hat{τ})}{\hat{V}}} \times \frac{\hat{τ}}{\sqrt{Var (\hat{τ})}} \overset{d}{\to} C \times N (0, 1) .$
进一步的如果我们定义学生 $t$ 检验量作为 FRT, 则有以下对偶性质:

$p_{FRT}$ 在 $H_{0 F}$ 是有限样本 #？精确的 ;
$p_{FRT}$ 在 $H_{0}$ 下渐近保守.

这只是 $t$ 统计量的特性, 其他检验量就没有这个特性了.

在 $H_{0 N}$ 下 $\hat{τ} \sim N (0, \frac{S^{2} (1)}{n_{1}} + \frac{S^{2} (0)}{n_{0}} - \frac{S^{2} (τ)}{n}) .$
在 $H_{0 F}$ 下用 $π$ 表示随机打乱, 则随机化分布 $({\hat{τ}}^{π})$ 满足 $(\hat{τ})^{π} \sim N (0, \frac{s^{2}}{n_{1}} + \frac{s^{2}}{n_{0}}),$ 这里 $s^{2}$ 是观测结果的样本方差. 基于 (3.1), $\begin{aligned} \frac{s^{2}}{n_{1}} + \frac{s^{2}}{n_{0}} & = \frac{n}{n_{1} n_{0}} {\frac{n_{1} - 1}{n - 1} {\hat{S}}^{2} (1) + \frac{n_{0} - 1}{n - 1} {\hat{S}}^{2} (0) + \frac{n_{1} n_{0}}{n (n - 1)} {\hat{τ}}^{2}} \\ \approx \frac{{\hat{S}}^{2} (1)}{n_{0}} + \frac{{\hat{S}}^{2} (0)}{n_{1}} \approx \frac{S^{2} (1)}{n_{0}} + \frac{S^{2} (0)}{n_{1}} . \end{aligned}$
这和 $\hat{τ}$ 的渐近分布不匹配. 理想上说, 我们希望计算 $H_{0 N}$ 下的 $p$ 值的时候基于 $\hat{τ}$ 的真实分布, 但它依赖于未知的潜在结果. 相反地, 我们用 FRT 基于 $(\hat{τ})^{π}$ 的 $p_{FRT}$ 计算, 却不和真实的 $H_{0 N}$ 下的 $\hat{τ}$ 匹配. 从而, $\hat{τ}$ 的 FRT 可能法控制 $H_{0 N}$ 下的 I 类错误.
幸运的是, 我们可以用 $t$ 检验量. $H_{0 N}$ 下 $t \sim N (0, C^{2}), C^{2} \leq 1,$ (等号当且仅当 $Y_{i} (1) - Y_{i} (0) = τ, \forall i = 1, \dots, n$ .) FRT 假定 $Y_{i} (1) = Y_{i} (0) = Y_{i}$ , 得到打乱后的分布 $t^{π} \sim N (0, 1)$ .

这里方差为 $1$ , 是因为 FRT 用的潜在结果表的个体因果效应为 $0$ . 在 $H_{0 N}$ 下, 因为 $t$ 的真实分布比打乱分布更分散, 因此基于 $t$ 的 $p_{FRT}$ 更加渐近保守.

2 CRE 中协变量调整的 FRT

现在我们推广到协变量. 我们在 FRT 中用学生化 Lin 估计: $t_{L} = \frac{{\hat{τ}}_{L}}{\sqrt{{\hat{V}}_{L}}},$ (见回归调整). 它是 $Y_{i}$ 上 $(1, Z_{i}, X_{i}, Z_{i} X_{i})$ OLS 拟合后 $Z_{i}$ 的系数, 并转化得到的稳健的 $t$ 统计量. $t_{L}$ 下的 FRT 有以下特点:

$p_{FRT}$ 在 $H_{0 F}$ 下是有限样本精确的;
$p_{FRT}$ 在 $H_{0 N}$ 下是渐近保守的;
相比 $H_{0 N}$ 不成立下 $t$ 的 FRT, $p_{FRT}$ 更有渐近功效;
这些性质在我们用错误的 OLS 模型下依然成立.

3 通用建议

如果没有协变量, 通常使用 $t_{S} = \frac{{\hat{τ}}_{S}}{\sqrt{{\hat{V}}_{S}}}$ 的 FRT; 有协变量时, 使用 $t_{L, S} = \frac{{\hat{τ}}_{L, S}}{\sqrt{{\hat{V}}_{L, S}}}$ 的 FRT.