1 线性模型的概念
有时候两个随机变量存在很明显的线性关系, 因此我们需要专门研究线性模型.
设 是可观察的随机变量, 是可观察的一般变量. 是未知参数. 是不可观察的随机变量, 称为随机误差. 如果 其中 已知, 则上式是线性统计模型, 简称线性模型. 一般假设 .
一般我们可以把 记为 , 则 不失一般性, 记线性模型为
此时 .
在上面的定义里我们只取了前 个变量, 假设 这些次重要的变量也共同影响了 , 则有 所以 可以理解为方程近似.
统计理论中, 我们不追究误差来自随机噪音或是次要特征, 而只关心它的分布特征.
在实际的 (1.1) 的统计推断中, 假设我们进行了 次实验; 第 次实验自变量为 (称 为一个试验点), 相应的观察值为 , 也即 记 , , , 则上式简写为
这里 称为 设计矩阵, 称为观察值向量. (1.2) 会成为以后的出发点.
2 分类
根据自变量因子是连续/离散数值, 我们把它们分为数量因子和属性因子两种. 基于此:
-
如果都是数量因子, 称为回归分析模型;
-
如果都是属性因子, 称为方差分析模型;
-
如果两者都有, 称为协方差分析模型.
另一种分类方法是把 看作因子 的显著程度, 它可能是随机的也可能是固定的.
- 如果都是固定的, 称为固定效应模型;
- 如果都是随机的不可观察的, 称为随机效应模型;
- 如果两者都有, 称为混合效应模型.