7.1 多元正态总体的抽样分布和参数推断

#MultinomialDistribution #CharacteristicFunction #JacobiDeterminant #CompleteSufficient #UMVUE #MLE #LikelihoodRatioTest

1 多元正态分布

回顾一元正态分布 $N_{1} (μ, σ^{2})$ 有密度函数 $f (x) = (2 π σ^{2})^{- \frac{1}{2}} \exp {- \frac{1}{2 σ^{2}} (x - μ)^{2}} .$ 而如果 $X_{1}, \dots, X_{p} \overset{i . i . d}{\sim} N_{1} (μ, σ^{2})$ , 则 $X = (X_{1}, \dots, X_{p})^{T}$ 的密度函数为 $f (x_{1}, \dots, x_{n}) = (2 π σ^{2})^{- \frac{p}{2}} \exp {- \frac{1}{2 σ^{2}} \sum_{i = 1}^{p} (x_{i} - μ)^{2}} .$
下面给出一般的多元正态分布的定义:

多元正态分布

如果 $X = (X_{1}, \dots, X_{p})^{T}$ 是 $p$ 维随机向量, $\forall a \in R^{p}$ , 都有 $a^{T} X$ 是正态随机变量, 则 $X$ 是正态随机向量, 它的分布是 $p$ 元正态分布.
记 $E X = μ$ , $Cov X = Σ$ , 则 $X \sim N_{p} (μ, Σ)$ .

X

由

μ

Σ

唯一决定.

定义 $X$ 的特征函数为 $Φ_{X} (t) = E e^{i t^{T} X}$ , 它是 $t = (t_{1}, \dots, t_{p})^{T}$ 的函数, 这里如果 $X \sim N_{1} (μ, σ^{2})$ , 特征函数为 $\exp {i μ t - \frac{1}{2} σ^{2} t^{2}}$ . 这样 $\forall t \in R^{p}$ , $t^{T} X$ 是正态随机变量, 它的特征函数是 $Φ (θ) = E e^{i θ t^{T} X} = \exp {i θ E (t^{T} X) - \frac{1}{2} Var (t^{T} X) θ^{2}} .$ 注意到 $E (t^{T} X) = t^{T} μ, Var (t^{T} X) = t^{T} Cov (X t) = t^{T} Σ t,$ 于是在 $Φ (θ)$ 中令 $θ = 1$ , 有 $E e^{i t^{T} X} = \exp {i t^{T} μ - \frac{1}{2} t^{T} Σ t} .$ 因此可以说明 $X$ 的分布由 $μ, Σ$ 唯一决定.

多元正态分布的基本性质

(正态变量的线性函数也是正态的) 设 $X \sim N_{p} (μ, Σ)$ , $A \in R^{q \times p}$ , $b \in R^{q}$ , 则 $Y = A X + b \sim N_{q} (A μ + b, A Σ A^{T}) .$
(正态分布总是存在) $\forall μ \in R^{p}$ , $Σ \in R^{p \times p}$ , $Σ \geq 0$ , $\exists X \sim N (μ, Σ)$ .
任意 $p$ 维正态向量, 可以表示为 $N_{p} (0, I_{p})$ 的线性函数.
设 $X \sim N_{p} (μ, Σ)$ . $Σ > 0$ 时称 $X$ 是非退化的. 此时 $\begin{matrix} (1.1) & f (x) = (2 π)^{- \frac{p}{2}} (det Σ)^{- \frac{1}{2}} \exp {- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)} . \end{matrix}$
设 $X \sim N_{p} (μ, Σ)$ . 剖分为 $X = (\begin{matrix} X_{(1)} \\ X_{(2)} \end{matrix}), μ = (\begin{matrix} μ_{(1)} \\ μ_{(2)} \end{matrix}), Σ = (\begin{matrix} Σ_{11} & Σ_{12} \\ Σ_{21} & Σ_{22} \end{matrix}),$ 其中 $X_{(i)}$ 是 $p_{i}$ 维的, $p_{1} + p_{2} = p$ . 则
1. 如果 $Σ_{12} = Σ_{21}^{T} = 0$ , 则 $X_{(1)} ⊥ ⊥ X_{(2)}$ .
2. 如果 $Σ_{11}$ 可逆, 则 $X_{(2)} | X_{(1)} \sim N_{p_{2}} (μ_{2} + Σ_{21} Σ_{11}^{- 1} (X_{(1)} - μ_{(1)}), Σ_{22} - Σ_{21} Σ_{11}^{- 1} Σ_{12}) .$

证明

$\forall a \in R^{q}$ , 有 $a^{T} Y = a^{T} A X + a^{T} b$ . 因为 $a^{T} A X$ 正态, $a^{T} b$ 常数, 从而 $Y$ 正态.
根据这里第三条, $Σ$ 可以分解为 $Σ = A A^{T}$ . 取 $Y_{1}, \dots, Y_{p} \overset{i . i . d}{\sim} N (0, 1)$ . 记 $Y = (Y_{1}, \dots, Y_{p})^{T}$ , 则 $Y \sim N_{p} (0, I_{p})$ . 令 $X = A Y + μ$ , 则由性质 1: $X \sim N_{p} (μ, A A^{T}) = N_{p} (μ, Σ) .$
由上面的证明蕴含.
由性质 3: $X = Σ^{\frac{1}{2}} Y + μ$ , $Y \sim N_{p} (0, I_{p})$ . 则 $f (y) = (2 π)^{- \frac{p}{2}} \exp {- \frac{1}{2} y^{T} y} .$ 作变换 $y = Σ^{- \frac{1}{2}} (x - μ)$ , 则 Jacobi 行列式是 $det Σ^{- \frac{1}{2}}$ . 这样根据密度变换公式得证.
只证明 2. 令 $P = (\begin{matrix} I_{p_{1}} & 0 \\ - Σ_{21} Σ_{11}^{- 1} & I_{p_{2}} \end{matrix})$ , 变换 $Y = P X$ , 则 $\begin{aligned} Y & = (\begin{array}{c} X_{(1)} \\ X_{(2)} - Σ_{21} Σ_{11}^{- 1} X_{(1)} \end{array}) = (\begin{array}{c} Y_{(1)} \\ Y_{(2)} \end{array}), \\ Cov Y & = P Cov (X P^{T}) = (\begin{array}{c} Σ_{11} & 0 \\ 0 & Σ_{22} - Σ_{21} Σ_{11}^{- 1} Σ_{12} \end{array}), \end{aligned}$ 从而 $Y_{(1)} ⊥ ⊥ Y_{(2)}$ , 因此给定 $Y_{(1)} = X_{(1)}$ 时, $Y_{(2)} \sim N_{p_{2}} (μ_{(2)} - Σ_{21} Σ_{11}^{- 1} μ_{(1)}, Σ_{22} - Σ_{21} Σ_{11}^{- 1} Σ_{12}) .$ 但 $X_{(2)} = Y_{(2)} + Σ_{21} Σ_{11}^{- 1} X_{(1)}$ , 从而得证.

性质 5 (1) 表明, 不相关的正态变量一定独立, 反之也成立.
5 (2) 的特殊情形 $p_{1} = p - 1$ , $p_{2} = 1$ 在多元分析中很有用.

2 正态总体的抽样分布

设总体 $G$ 有分布 $N_{p} (μ, Σ)$ , $x_{1}, \dots, x_{n} \sim G$ : $x_{α} \sim N_{p} (μ, Σ), Cov (x_{α}, x_{β}) = 0, α, β = 1, \dots, n, α \neq β .$
记 $X = (x_{1}^{T}, \dots, x_{n}^{T})^{T}$ . 我们来研究 $X$ 的分布. 容易得知 $E X^{T} = (μ^{T}, \dots, μ^{T}), Cov X = (\begin{matrix} Σ & 0 \\ ⋱ \\ 0 & Σ \end{matrix}),$ 从而 $X$ 遵从 $n p$ 元正态分布. 设 $Σ = B^{T} B$ , 则由性质2, $\exists z_{i j} \overset{i . i . d}{\sim} N (0, 1)$ 相互独立构成的矩阵 $Z$ : $X = Z B + M$ , 这里 $M = E X$ .
推广到 $Y = A Z B + M$ : $Z = (z_{i j}) \in R^{n \times p}$ , $z_{i j} \overset{i . i . d}{\sim} N (0, 1)$ , $A \in R^{m \times n}$ , $B \in R^{p \times q}$ , $M \in R^{m \times q}$ . 记 $A A^{T} = V = (v_{i j})$ , $B^{T} B = Σ = (σ_{i j})$ . 则 $Y$ 遵从 $m q$ 元正态分布: $\begin{aligned} E y_{i j} = m_{i j}, \\ Var (y_{i j}) = Var (\sum_{α, β} a_{i α} z_{α β} b_{β j}) = \sum_{α, β} a_{i α}^{2} b_{β j}^{2} = \sum_{α} a_{i α}^{2} \sum_{β} b_{β j}^{2} = v_{i i} σ_{j j}, \\ Cov (y_{i j}, y_{k h}) = Cov (\sum_{α, β} a_{i α} z_{α β} b_{β j}, \sum_{α, β} a_{k α} z_{α β} b_{β h}) = \sum_{α, β} a_{i α} b_{β j} a_{k α} b_{β h} = v_{i k} σ_{j h}, \end{aligned}$ 这里 $i, k = 1, \dots, m; h, j = 1, \dots, q$ . 注意到 $Y$ 的分布只和 $M, V, Σ$ 有关, 因此记 $\begin{matrix} (2.1) & Y \sim N_{m q} (M, V, Σ) . \end{matrix}$
此时前面的 $X \sim N_{n p} (M, I, Σ)$ .

定理 2.1

设 $Y \sim N_{m q} (M, V, Σ)$ . 任给 $C \in R^{k \times m}$ , $D \in R^{q \times r}$ : $X = C Y D \sim N_{k r} (C M D, C V C^{T}, D^{T} Σ D) .$

接下来研究 $W = X^{T} X$ 的分布, 作为 $χ^{2}$ 分布的推广. 这里 $X \sim N_{n p} (M, I, Σ)$ , $M^{T} = (μ_{1}, \dots, μ_{n})$ . 习惯上称为 Wishart 分布. 它的密度函数比较复杂, 这里只讨论它的一些性质.
不难验算 $E W = \sum_{i = 1}^{n} E (x_{i} x_{j}^{T}) = n Σ + M^{T} M .$
记 $Δ = M^{T} M$ , 则这样的矩阵仅依赖于 $p, n, Σ, Δ$ . 称 $p$ 是维数, $n$ 是自由度, $Σ$ 是协方差矩阵, $Δ$ 是非中心矩阵. 记 $W \sim W_{p} (n, Σ, Δ)$ . 依据 $Δ$ 是否为 $0$ , 区分中心/非中心 Wishart 分布.

定理 2.2

设 $W \sim W_{p} (n, Σ, Δ)$ . 则

如果 $p = 1, Σ = σ^{2}$ , 则 $W \sim σ^{2} χ_{n}^{2} (\frac{Δ^{\frac{1}{2}}}{σ})$ .
$\forall A \in R^{k \times p}$ , 有 $A W A^{T} \sim W_{k} (n, A Σ A^{T}, A Δ A^{T}) .$

证明

只证明 2. 记 $Y^{T} = A X^{T} = (y_{1}, \dots, y_{n})$ . 易见 $y_{α} \sim N_{k} (A μ_{α}, A Σ A^{T})$ , 且相互独立. 因此 $A W A^{T} = Y^{T} Y \sim W_{k} (n, A Σ A^{T}, A Δ A^{T})$ .

定理 2.3

设 $X \sim N_{n p} (M, I, Σ)$ , $C$ 对称, 则

$W = X^{T} C X \sim W_{p} (k, Σ, M^{T} C M)$ , 等价于 $C$ 为正投影阵, 其中 $k = rank C$ .
$A X ⊥ ⊥ B X ⟺ A B^{T} = 0$ . 从而由 $B \geq 0$ , $A B = 0$ , 推出 $A X ⊥ ⊥ X^{T} B X$ ; 由 $A \geq 0, B \geq 0$ , $A B = 0$ 推出 $X^{T} A X ⊥ ⊥ X^{T} B X$ .

证明

- " $\Rightarrow$ ": $\forall a \in R^{p}$ , $a^{T} W a \sim χ_{k}^{2} (δ)$ , 从而 $C$ 为正投影阵.
- " $\Leftarrow$ ": $\exists U_{n \times k}$ : $C = U U^{T}$ , $U^{T} U = I_{k}$ . 令 $Y = U^{T} X$ . 记 $U = (u_{1}, \dots, u_{k})$ , 有 $Cov (X^{T} u_{i}, X^{T} u_{j}) = Cov (\sum_{α} x_{α} u_{i α}, \sum_{α} x_{α} u_{j α}) = δ_{i j} Σ .$ 于是 $X^{T} C X = Y^{T} Y$ , 而 $Y \sim N_{k p} (U^{T} M, I, Σ)$ .
$\forall i, j$ : $Cov (\sum_{α} x_{α} a_{i α}, \sum_{α} x_{α} b_{j α}) = \sum_{α} a_{i α} b_{j α} \cdot Σ = 0 ⟺ A B^{T} = 0.$
从而得证.

定理 2.4

设 $W \sim W_{p} (n, Σ, Δ)$ , $n \geq p$ , $Σ > 0$ , 则 $P (W > 0) = 1$ .

证明

按定义, $W = X^{T} X$ , $X \sim N_{n p} (M, I, Σ)$ , $M^{T} M = Δ$ . 记 $X = (x_{(1)}, \dots, x_{(p)})$ . 对 $k < p$ , 由性质5: $x_{(k + 1)} | x_{(1)}, \dots, x_{(k)} \sim N (v_{k + 1}, σ_{k + 1}^{2} I)$ . 这里 $σ_{k + 1}^{2} = e_{1}^{T} (Σ_{22} - Σ_{21} Σ_{11}^{- 1} Σ_{12}) e_{1}$ , 这里 $e_{1} = (1, 0, \dots, 0)$ . 因此条件分布非退化, 故有 $P (x_{(k + 1)} \in Im (x_{(1)}, \dots, x_{(k)}) | x_{(1)}, \dots, x_{(k)}) = 0.$ 这是由于 $Im (x_{(1)}, \dots, x_{(k)})$ 至多 $k$ 维, 而 $x_{(k + 1)}$ 是 $n$ 维的, 从而 $\begin{aligned} P (x_{(k + 1)} \in Im (x_{(1)}, \dots, x_{(k)})) \\ = & E {P (x_{(k + 1)} \in Im (x_{(1)}, \dots, x_{(k)}) | x_{(1)}, \dots, x_{(k)})} = 0. \end{aligned}$ 于是 $\begin{aligned} P (rank X < p) & = P (x_{(1)}, \dots, x_{(p)} 线性相关) \\ \leq \sum_{k = 0}^{p - 1} P (x_{(k + 1)} \in Im (x_{(1)}, \dots, x_{(k)})) = 0, \end{aligned}$ 因此 $P (X^{T} X > 0) = 1$ , 从而得证.

根据定理 2.4, 当 $n \geq p, Σ > 0$ 时, 几乎可以认为 $W$ 是可逆的, 称 $W$ 有非退化 Wishart 分布. 当 $n < p$ 或 $det Σ = 0$ 时, 则为退化的 Wishart 分布.
作为 Cochran定理的矩阵二次型的推广:

定理 2.5

设 $X \sim N_{n p} (M, I, Σ)$ , $A_{1}, \dots, A_{n} \geq 0$ , 满足 $X^{T} X = \sum_{i = 1}^{k} X^{T} A_{i} X$ . 记 $rank A_{i} = n_{i}$ , 则 $X^{T} A_{i} X \sim W_{p} (n_{i}, Σ, M^{T} A_{i} M) ⟺ n = \sum_{i = 1}^{k} n_{i} .$

引理 2.1

设 $W \sim W_{p} (n, Σ)$ , $n \geq p$ , $Σ > 0$ . 剖分 $W = (\begin{matrix} W_{11} & W_{12} \\ W_{21} & W_{22} \end{matrix}), Σ = (\begin{matrix} Σ_{11} & Σ_{12} \\ Σ_{21} & Σ_{22} \end{matrix}),$ 其中 $W_{11}, Σ_{11}$ 为 $q$ 阶方阵. 记 $W_{11, 2} = W_{11} - W_{12} W_{22}^{- 1} W_{21}$ , $Σ_{11, 2} = Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21}$ . 则有 $W_{22} \sim W_{p - q} (n, Σ_{22})$ , 且 $\begin{aligned} (W_{22}^{- 1} W_{21} | W_{22}) \sim N_{p - q, q} (Σ_{22}^{- 1} Σ_{21}, W_{22}^{- 1}, Σ_{11, 2}), \\ (W_{11, 2} | (W_{22}^{- 1} W_{21}, W_{22})) \sim W_{q} (n - p + q, Σ_{11, 2}) . \end{aligned}$

证明

在定理2.2(2) 中, 取 $A = (\begin{matrix} 0 & 0 \\ 0 & I_{p - q} \end{matrix})$ , 得 $W_{22} \sim W_{p - q} (n, Σ_{22})$ .
设 $W = X^{T} X$ , $X \sim N_{n p} (0, I, Σ)$ , 记 $X = (X_{1}, X_{2})$ , $X_{1}$ 有 $q$ 列. 因 $X$ 的行独立同分布, 由性质5(2): $(X_{1} | X_{2}) \sim N_{n q} (X_{2} Σ_{22}^{- 1} Σ_{21}, I, Σ_{11, 2}) .$
注意到 $W_{11} = X_{1}^{T} X_{1}$ , $W_{21} = X_{2}^{T} X_{1}$ , $W_{22} = X_{2}^{T} X_{2}$ . 由定理2.1: $W_{22}^{- 1} W_{21} = (X_{2}^{T} X_{2})^{- 1} X_{2}^{T} X_{1} | X_{2} \sim N_{p - q, q} (Σ_{22}^{- 1} Σ_{21}, (X_{2}^{T} X_{2})^{- 1}, Σ_{11, 2}),$ 知它仅依赖 $X_{2}^{T} X_{2} = W_{22}$ . 故 $W_{22}^{- 1} W_{21} | W_{22} \sim N_{p - q, q} (Σ_{22}^{- 1} Σ_{21}, W_{22}^{- 1}, Σ_{11, 2}) .$
而 $W_{11, 2} = X_{1}^{T} (I - X_{2} (X_{2}^{T} X_{2})^{- 1} X_{2}^{T}) X_{1} = X_{1}^{T} P_{X_{2}^{⊥}} X_{1},$ 由定理2.3(1): $W_{11, 2} | X_{2} \sim W_{q} (n - p + q, Σ_{11, 2}) .$ (此时 $Δ = Σ_{12} Σ_{22}^{- 1} X_{2}^{T} P_{X_{2}^{⊥}} X_{2} Σ_{22}^{- 1} Σ_{21} = 0$ ). 又由定理2.3(2): 由 $(X_{2}^{T} X_{2})^{- 1} X_{2}^{T} P_{X_{2}} = 0$ 得 $W_{11, 2} | X_{2} ⊥ ⊥ W_{22}^{- 1} W_{21} | X_{2}$ . 而 $W_{11, 2}$ 和 $X_{2}$ 无关, $W_{22}^{- 1} W_{21}$ 仅依赖于 $W_{22}$ , 故 $W_{11, 2} | (W_{22}^{- 1} W_{21}, W_{22}) \sim W_{q} (n - p + q, Σ_{11, 2}) .$

定理 2.6

设 $W \sim W_{p} (n, Σ)$ , $n \geq p$ , $Σ > 0$ . 则

$\forall a \in R^{p}$ : $\frac{a^{T} Σ^{- 1} a}{a^{T} W^{- 1} a} \sim χ_{n - p + 1}^{2}$ .
$\forall x \sim N_{p} (0, Σ)$ , $x ⊥ ⊥ W$ , 有 $x^{T} W^{- 1} x \cdot \frac{n - p + 1}{p} \sim F_{p, n - p + 1}$ .

证明

先考虑 $a = e_{1}$ , 有 $\frac{a^{T} Σ^{- 1} a}{a^{T} W^{- 1} a} = \frac{(Σ^{- 1})_{11}}{(W^{- 1})_{11}} = \frac{(Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21})^{- 1}}{(W_{11} - W_{12} W_{22}^{- 1} W_{21})^{- 1}} = \frac{W_{11} - W_{12} W_{22}^{- 1} W_{21}}{Σ_{11} - Σ_{12} Σ_{22}^{- 1} Σ_{21}} .$ 由引理2.1 中 $q = 1$ 的情形: $\frac{e_{1}^{T} Σ^{- 1} e_{1}}{e_{1}^{T} W^{- 1} e_{1}} \sim χ_{n - p + 1}^{2} .$ 一般地对 $a \in R^{p}$ , 令 $u_{1} = \frac{a}{| | a | |}$ , 作正交阵 $U = (u_{1}, \dots, u_{p})$ , 有 $a = U e_{1} | | a | |$ : $\frac{a^{T} Σ^{- 1} a}{a^{T} W^{- 1} a} = \frac{e_{1}^{T} U^{T} Σ^{- 1} U e_{1}}{e_{1}^{T} U^{T} W^{- 1} U e_{1}} = \frac{e_{1}^{T} (U^{T} Σ U)^{- 1} e_{1}}{e_{1}^{T} (U^{T} W U)^{- 1} e_{1}} .$ 由定理2.2: $U^{T} W U \sim W_{p} (n, U^{T} Σ U)$ , 故得证.
注意到 $x^{T} W^{- 1} x = \frac{x^{T} Σ^{- 1} x}{x^{T} Σ^{- 1} x / (x^{T} W^{- 1} x)} .$ 有 $(\frac{x^{T} Σ^{- 1} x}{x^{T} W^{- 1} x} | x) \sim χ_{n - p + 1}^{2}$ . 因此实际上条件分布不依赖 $x$ , 从而 $\frac{x^{T} Σ^{- 1} x}{x^{T} W^{- 1} x} \sim χ_{n - p + 1}^{2}$ , 与 $x$ 独立, 从而与 $x^{T} Σ^{- 1} x$ 独立.

记 $T^{2} = x^{T} W^{- 1} x$ , 称为Hotelling $T^{2}$ 统计量.
设 $W_{1} \sim W_{p} (k_{1}, Σ)$ , $W_{2} \sim W_{p} (k_{2}, Σ)$ , $W_{1} ⊥ ⊥ W_{2}$ , 令 $Λ = \frac{det W_{1}}{det (W_{1} + W_{2})}$ , 称为Wilks统计量, 它的分布仅依赖于 $p, k_{1}, k_{2}$ , 记为 $Λ (p, k_{1}, k_{2})$ .
下面是关于 Wilks 统计量的一些信息. 它的分布非常复杂.

$p$	$k_{2}$	F 分布	自由度
	$1$	$\frac{1 - Λ}{Λ} \cdot \frac{k_{1} - p + 1}{p}$	$p, k_{1} - p + 1$
	$2$	$\frac{1 - \sqrt{Λ}}{\sqrt{Λ}} \cdot \frac{k_{1} - p}{p}$	$p, k_{1} - p$
$1$		$\frac{1 - Λ}{Λ} \cdot \frac{k_{1}}{k_{2}}$	$k_{2}, k_{1}$
$2$		$\frac{1 - \sqrt{Λ}}{\sqrt{Λ}} \cdot \frac{k_{1} - 1}{k_{2}}$	$2 k_{2}, 2 (k_{1} - 1)$

3 正态总体的参数统计推断

设总体 $G$ 有 $N_{p} (μ, Σ)$ , $y_{1}, \dots, y_{n} \overset{i . i . d}{\sim} G$ . 记 $Y^{T} = (y_{1}, \dots, y_{n})$ , 则有 $Y \sim N_{n p} (M, I, Σ), M = (μ, \dots, μ)^{T} .$
类似一元统计分析, 令样本均值和协方差矩阵为 $\begin{matrix} (3.1) & \overset{―}{y} = \frac{1}{n} \sum_{α = 1}^{n} y_{α}, S = \frac{1}{n - 1} \sum_{α = 1}^{n} (y_{α} - \overset{―}{y}) (y_{α} - \overset{―}{y})^{T} . \end{matrix}$
用矩阵记法: $\begin{matrix} (3.2) & \overset{―}{y} = Y^{T} 1_{n} \frac{1}{n}, S = Y^{T} P 1_{n^{⊥}} Y \frac{1}{n - 1} . \end{matrix}$

定理 3.1

$\overset{―}{y}, S$ 是 $μ, Σ$ 的无偏估计, 且在 $μ$ 的一切线性无偏估计 ${Y^{T} a}$ 中 $Cov (Y^{T} a) - Cov (\overset{―}{y}) \geq 0$ (也即非负定).

证明

容易验算 $E \overset{―}{y} = E (Y^{T} 1_{n} \frac{1}{n}) = M^{T} 1_{n} \frac{1}{n} = μ .$
设 $Y^{T} a$ 是 $μ$ 的任一无偏估计, 则有 $E (Y^{T} a) = M^{T} a = \sum_{i = 1}^{n} a_{i} μ = μ ⟺ \sum_{i = 1}^{n} a_{i} = 1.$ 又注意到 $\begin{aligned} Cov (Y^{T} a - Y^{T} 1 \frac{1}{n}, Y^{T} 1 \frac{1}{n}) & = Cov (\sum_{α = 1}^{n} (a_{α} - \frac{1}{n}) y_{α}, \sum_{α = 1}^{n} \frac{1}{n} y_{α}) \\ = \sum_{α = 1}^{n} \frac{1}{n} (a_{α} - \frac{1}{n}) Σ = 0, \end{aligned}$
从而 $Cov (Y^{T} a) - Cov (\overset{―}{y}) = Cov (Y^{T} a - \overset{―}{y}) \geq 0.$
顺便注意到 $Cov \overset{―}{y} = \frac{1}{n} Σ$ , 由于 $\begin{aligned} (n - 1) E S & = E (\sum_{α = 1}^{n} (y_{α} - \overset{―}{y}) (y_{α} - \overset{―}{y})^{T}) = E (\sum_{α = 1}^{n} y_{α} y_{α}^{T} - n \overset{―}{y} {\overset{―}{y}}^{T}) \\ = \sum_{α = 1}^{n} (Σ + μ μ^{T}) - n (\frac{1}{n} Σ + μ μ^{T}) = (n - 1) Σ, \end{aligned}$ 得 $S$ 是 $Σ$ 的无偏估计.

定理 3.2

如果 $Σ > 0$ , 则 $(\overset{―}{y}, S)$ 对于分布族 ${N_{n p} (μ, I, Σ)}$ 是充分完备统计量. 因此 $(\overset{―}{y}, S)$ 是 $(μ, Σ)$ 的 UMVUE.

证明

$Y$ 的联合密度是 $\begin{aligned} f (Y) & = C (det Σ)^{- \frac{n}{2}} \exp {- \frac{1}{2} \sum_{α = 1}^{n} (y_{α} - μ^{T}) Σ^{- 1} (y_{α} - μ)} \\ = C (det Σ)^{- \frac{n}{2}} \exp {- \frac{1}{2} tr (Σ^{- 1} \sum_{α = 1}^{n} (y_{α} - μ) (y_{α} - μ)^{T})} . \end{aligned}$
由于 $\begin{aligned} \sum_{α = 1}^{n} (y_{α} - μ) (y_{α} - μ)^{T} & = \sum_{α = 1}^{n} y_{α} y_{α}^{T} - n \overset{―}{y} μ^{T} - n μ {\overset{―}{y}}^{T} + n μ μ^{T} \\ (3.3) & = Y^{T} Y - n \overset{―}{y} μ^{T} - n μ {\overset{―}{y}}^{T} + n μ μ^{T}, \end{aligned}$ 得 $f (Y) = C (det Σ)^{- \frac{n}{2}} \exp {- \frac{1}{2} tr (Σ^{- 1} Y^{T} Y) + n μ^{T} Σ^{- 1} \overset{―}{y}} \exp {- \frac{n}{2} μ^{T} Σ^{- 1} μ},$ 可见 $(\overset{―}{y}, Y^{T} Y)$ 是充分完备统计量 (因为是指数型分布族). 又因为是无偏估计, 所以是 UMVUE.

定理 3.3

设 $Σ > 0$ , 则 $(\overset{―}{y}, \frac{W}{n})$ 是 $(μ, Σ)$ 的极大似然估计, 这里 $W = Y^{T} P_{1} Y$ .

证明

由 (3.3), 对给定的 $Σ$ , 为了让 $f (Y; μ, Σ)$ 达到极大, 只需要 $\hat{μ} = \overset{―}{y}$ , 从而 $f (Y; \hat{μ}, Σ) = C (det Σ)^{- \frac{n}{2}} \exp {- \frac{1}{2} tr (Σ^{- 1} W)} .$ 故 $\begin{aligned} \ln f (Y; \hat{μ}, Σ) & = \ln C + \frac{n}{2} \ln (det Σ^{- 1}) - \frac{n}{2} tr (Σ^{- 1} \frac{W}{n}) \\ = \ln C - \frac{n}{2} \ln det \frac{W}{n} + \frac{n}{2} (\ln det \frac{Σ^{- 1} W}{n} - tr \frac{Σ^{- 1} W}{n}) . \end{aligned}$
记 $\frac{Σ^{- 1} W}{n}$ 的特征值为 $λ_{1}, \dots, λ_{p}$ , 则 $\begin{aligned} \ln det \frac{Σ^{- 1} W}{n} - tr \frac{Σ^{- 1} W}{n} = \sum_{i = 1}^{p} (\ln λ_{i} - λ_{i}) \\ = & \sum_{i = 1}^{p} [\ln (1 + λ_{i} - 1) - λ_{i}] \leq \sum_{i = 1}^{p} (λ_{i} - 1 - λ_{i}) = - p . \end{aligned}$ 且上述不等式当且仅当 $λ_{i} = 1$ 时取等号. 因此, $f (Y; \hat{μ}, Σ)$ 的极大值点是 $\hat{ε} = \frac{W}{n}$ .

下面给出 $\overset{―}{y}, W$ 的分布.

定理 3.4

设 $Y \sim N_{n p} (M, I, Σ)$ , 其中 $M^{T} = (μ, \dots, μ)$ . 记 $\overset{―}{y} = Y^{T} 1_{n} \frac{1}{n}$ , $W = Y^{T} P_{1^{⊥}} Y$ , 则有

$\overset{―}{y} \sim N_{p} (μ, \frac{Σ}{n})$ .
$W \sim W_{p} (n - 1, Σ)$ .
$\overset{―}{y} ⊥ ⊥ W$ .

证明

4. 显然
5. 由定理2.3(1) 得.
6. 令 $u_{n} = 1_{n} \frac{1}{\sqrt{n}}$ , 作正交阵 $U = (u_{1}, \dots, u_{n})$ , 考虑变换 $Y = U X$ . 则 $W = Y^{T} P_{1^{⊥}} Y = X^{T} U^{T} P_{1^{⊥}} U X = X^{T} (\begin{matrix} I_{n - 1} & 0 \\ 0 & 0 \end{matrix}) X = X_{1}^{T} X_{1},$ 其中 $X_{1}$ 是 $X$ 的前 $n - 1$ 行; $\overset{―}{y} = X^{T} U^{T} \frac{1}{n} = \frac{x_{n}}{\sqrt{n}}$ , 这里 $x_{n}^{T}$ 是 $X$ 的最后一行.
注意到 $X^{T} = Y^{T} U$ , 记 $X^{T} = (x_{1}, \dots, x_{n})$ , 有 $\begin{aligned} Cov (x_{α}, x_{β}) & = Cov (\sum_{k = 1}^{n} u_{k α} y_{k}, \sum_{k = 1}^{n} u_{k β} y_{k}) \\ = \sum_{k = 1}^{n} u_{k α} u_{k β} Cov y_{k} = δ_{α β} Σ . \end{aligned}$ 由 $W = \sum_{α = 1}^{n - 1} x_{α} x_{α}^{T}$ , $\overset{―}{y} = \frac{x_{n}}{\sqrt{n}}$ , 得证.

3.1 假设检验

3.1.1 $μ = μ_{0}$ 的检验

现在讨论假设检验 $H_{0} : μ = μ_{0}$ .
设 $Σ > 0$ 已知, 取检验量 $T = n (\overset{―}{y} - μ_{0})^{T} Σ^{- 1} (\overset{―}{y} - μ_{0})$ . 显然 $T \sim χ_{n}^{2} (δ)$ , $δ^{2} = n (μ - μ_{0})^{T} Σ^{- 1} (μ - μ_{0})$ . 因此拒绝域为 ${T \geq χ_{n, α}^{2}}$ .
如果 $Σ > 0$ 未知, 考虑似然比 $λ = \frac{M}{M_{H}} = \frac{max {L (Y; μ, Σ) | μ, Σ}}{max {L (Y; μ_{0}, Σ) | Σ}},$
由定理3.2的推导: $\begin{aligned} λ & = \frac{(det n W^{- 1})^{\frac{n}{2}} \exp (- \frac{n}{2})}{{det n [W + n (\overset{―}{y} - μ_{0}) (\overset{―}{y} - μ_{0})^{T}]^{- 1}}^{\frac{n}{2}} \exp (- \frac{n}{2})} \\ = {\frac{det [W + n (\overset{―}{y} - μ_{0}) (\overset{―}{y} - μ_{0})^{T}]}{det W}}^{\frac{n}{2}} . \end{aligned}$
令 $D = (\begin{matrix} W & \overset{―}{y} - μ_{0} \\ (\overset{―}{y} - μ_{0})^{T} & - \frac{1}{n} \end{matrix})$ . 由这里, $\begin{aligned} det D & = det W \cdot (- \frac{1}{n} - (\overset{―}{y} - μ_{0})^{T} W^{- 1} (\overset{―}{y} - μ_{0})) \\ = - \frac{1}{n} det [W + n (\overset{―}{y} - μ_{0}) (\overset{―}{y} - μ_{0})^{T}], \end{aligned}$ 从而 $λ = [1 + n (\overset{―}{y} - μ_{0})^{T} W^{- 1} (\overset{―}{y} - μ_{0})]^{\frac{n}{2}} .$
记 $\begin{matrix} (3.4) & T^{2} = n (\overset{―}{y} - μ_{0})^{T} W^{- 1} (\overset{―}{y} - μ_{0}), \end{matrix}$ 知 $λ$ 是 $T^{2}$ 的严格单增函数, 故拒绝域为 ${T^{2} \geq C}$ . 由定理2.6(2): $H_{0}$ 成立时 $T^{2} \cdot \frac{n - p}{p} \sim F_{p, n - p}$ , 从而取 $C = \frac{p}{n - p} F_{p, n - p, α}$ .

$T^{2}$ 检验正是一元统计中 $t$ 检验的推广.

3.1.2 $μ_{i}$ 全部相等的检验

设 $k$ 个独立的总体分布分别为 $N_{p} (μ_{i}, Σ)$ , $i = 1, \dots, k$ , $Σ > 0$ 未知. 现在检验 $H_{0} : μ_{1} = \dots = μ_{k}$ .
从 $i$ 中取 $n_{i}$ 个样本: $Y^{(i)} = ({y_{1}^{(i)}}^{T}, \dots, {y_{n_{i}}^{(i)}}^{T})$ . 记 $Y = (Y^{(1)}, \dots, Y^{(k)})^{T}$ , $n = \sum_{i = 1}^{k} n_{i}$ . 有似然函数 $\begin{aligned} L (Y, μ_{1}, \dots, μ_{k}, Σ) \\ = & C (det Σ)^{- \frac{n}{2}} \exp {- \frac{1}{2} \sum_{i = 1}^{k} \sum_{α = 1}^{n_{i}} (y_{α}^{(i)} - μ_{i})^{T} Σ^{- 1} (y_{α}^{(i)} - μ_{i})}, \end{aligned}$ 从而得到似然比 $λ = \frac{max {L | μ_{1}, \dots, μ_{k}, Σ}}{max {L | μ_{1} = \dots = μ_{k}, Σ}} = {[\frac{det (W_{1} + \dots + W_{k})}{det W}]}^{- \frac{n}{2}} .$ 其中 $W_{i} = {Y^{(i)}}^{T} P_{1_{n}^{⊥}} Y^{(i)}$ , $W = Y^{T} P_{1_{n}^{⊥}} Y$ .
记 $Λ = \frac{det (W_{1} + \dots + W_{k})}{det W}$ . 注意到 $\begin{aligned} W & = \sum_{i = 1}^{k} \sum_{α = 1}^{n_{i}} (y_{α}^{(i)} - \overset{―}{y}) (y_{α}^{(i)} - \overset{―}{y})^{T} \\ = \sum_{i = 1}^{k} \sum_{α = 1}^{n_{i}} (y_{α}^{(i)} - {\overset{―}{y}}^{(i)}) (y_{α}^{(i)} - {\overset{―}{y}}^{(i)})^{T} + \sum_{i = 1}^{k} n_{i} ({\overset{―}{y}}^{(i)} - \overset{―}{y}) ({\overset{―}{y}}^{(i)} - \overset{―}{y})^{T} \\ = \sum_{i = 1}^{k} W_{i} + B . \end{aligned}$
显然 $\sum_{i = 1}^{k} W_{i} ⊥ ⊥ B$ , $W \sim W_{p} (n - 1, Σ, Δ)$ , $W_{i} \sim W_{p} (n_{i} - 1, Σ)$ . 由定理2.5, $B \sim W_{p} (k - 1, Σ, Δ)$ . 从而 $H_{0}$ 成立时 $Δ = 0$ , $Λ \sim Λ (p, n - k, k - 1)$ . 得拒绝域 ${Λ \leq λ_{α}}$ .

现在研究特殊情形 $k = 2$ . 此时 $\begin{aligned} B & = \sum_{i = 1}^{2} n_{i} ({\overset{―}{y}}^{(i)} - \overset{―}{y}) ({\overset{―}{y}}^{(i)} - \overset{―}{y})^{T} \\ = \sum_{i = 1}^{2} n_{i} ({\overset{―}{y}}^{(i)} - \frac{n_{i}}{n} - \frac{n_{3 - i}}{n} {\overset{―}{y}}^{(3 - i)}) {({\overset{―}{y}}^{(i)} - \frac{n_{i}}{n} - \frac{n_{3 - i}}{n} {\overset{―}{y}}^{(3 - i)})}^{T} \\ = \sum_{i = 1}^{2} \frac{n_{i}^{2} n_{3 - i}}{n^{2}} ({\overset{―}{y}}^{(i)} - {\overset{―}{y}}^{(3 - i)}) ({\overset{―}{y}}^{(i)} - {\overset{―}{y}}^{(3 - i)})^{T} \\ = \frac{n_{1} n_{2}}{n} ({\overset{―}{y}}^{(1)} - {\overset{―}{y}}^{(2)}) ({\overset{―}{y}}^{(1)} - {\overset{―}{y}}^{(2)})^{T} . \end{aligned}$
则 $Λ$ 是 $T^{2} = \frac{n_{1} n_{2}}{n} ({\overset{―}{y}}^{(1)} - {\overset{―}{y}}^{(2)})^{T} W^{- 1} ({\overset{―}{y}}^{(1)} - {\overset{―}{y}}^{(2)})$ 的严格下降函数, 得拒绝域 ${T^{2} \geq \frac{p}{n - p - 1} F_{p, n - p - 1, α}}$ .

3.1.3 协方差矩阵的检验

设 $Y$ 容量为 $n$ . 检验 $H_{0} : Σ = Σ_{0} > 0$ , 令似然比 $\begin{aligned} λ & = \frac{max {L (Y, μ, Σ) | μ, Σ > 0}}{max {L (Y, μ, Σ_{0}) | μ}} \\ = \frac{{(det \frac{W}{n})}^{- \frac{n}{2}} \exp {- \frac{n}{2}}}{(det Σ_{0})^{- \frac{n}{2}} \exp {- \frac{1}{2} tr (Σ_{0}^{- 1} W)}} \\ = \exp {- \frac{n}{2}} n^{\frac{n p}{2}} [det (W Σ_{0}^{- 1})]^{- \frac{n}{2}} \exp {\frac{1}{2} tr (Σ_{0}^{- 1} W)} . \end{aligned}$
根据定理, $2 \ln λ \to χ_{\frac{p (p + 1)}{2}}^{2}$ , 因此 $n$ 较大时给出渐进拒绝域 ${2 \ln λ \geq χ_{\frac{p (p + 1)}{2}, α}^{2}}$ .