1.1 相关性 关联性 Yule-Simpson悖论
尽管传统观点认为统计学只能推断相关性/关联性, 我们却认为统计学对于 因果性 的推断同样至关重要. 因果推断主要介绍使用的正式的 "语言" 以及在随机化/观察性研究中的统计方法.
1 一些常用的衡量关联性的方式
1.1 相关性 回归
我们定义 的 Pearson 相关系数(correlation coefficient) 为 它用于表示 的线性相关性. 事实上如果用 对 进行线性回归 我们可以得到 (参考 1 Simple Regression)
1.2 列联表
对于两个 0-1 变量 , 记 , 则可以用 列联表(contingency table) 来表示它们的关系:
|
|
|
|
|
|
|
|
|
定义
- 风险差 (risk difference)
- 风险比 (risk ratio)
- 优势比 (odds ratio)
- 下列命题等价: , , , .
- 如果 均为正, 则下列命题等价: , , .
- 如果 和 很小, 则 .
对于我们的观测结果 , 同样可以绘制列联表, 这里省略.
2 Yule-Simpson 悖论
这是一个经典的肾结石的统计例子. 我们用 代表进行大规模手术, 代表微创手术; 代表手术成功, 代表失败. 给出观测结果的列联表:
|
|
|
|
|
|
|
|
|
因此 , 说明微创手术成功率更高.
但是实际上对照组/实验组的分组并不随机, 可能会因为结石的大小/严重程度进行分组的偏好. 对于有小结石的病人, 列联表为
|
|
|
|
|
|
|
|
|
而对于大结石的病人
|
|
|
|
|
|
|
|
|
分别计算两组的 RD:
这都说明反而是大规模手术的治疗效果好!
为了解释这个实验, 记 代表小结石, 代表大结石. 首先 这说明 大结石的病人更倾向于接受实验组(大规模手术). 然后固定组别, 看看 和结果 的联系:
这说明 小结石病人有更高的成功率.

我们定义 是 的 混淆变量.