矩阵求导术

1 矩阵求导的本质结构

对于向量和标量的函数/自变量, 我们常常对他们的导数的定义感到困惑. 这里简单看几个例子回顾一下定义.

输出\输入	标量	向量	矩阵
标量	$f (x)$	$f (\vec{x})$	$f (X)$
向量	$\vec{f} (x)$	$\vec{f} (\vec{x})$	$\vec{f} (X)$
矩阵	$F (x)$	$F (\vec{x})$	$F (X)$

例子

$f : R^{3 \times 1} \to R, f (\vec{x}) = x_{1}^{2} + x_{1} x_{2} + x_{2} x_{3}$ . 则 $\frac{\partial f (\vec{x})}{\partial {\vec{x}}_{3 \times 1}} = {[\frac{\partial f}{\partial x_{1}} \frac{\partial f}{\partial x_{2}} \frac{\partial f}{\partial x_{3}}]}^{T} = {[2 x_{1} + x_{2} x_{1} + x_{3} x_{2}]}^{T} .$
$\vec{f} : R^{3 \times 1} \to R^{2 \times 1}$ , $\vec{f} (x) = (x_{1} + x_{2}, x_{1} + x_{3})^{T}$ , 则 $\frac{\partial \vec{f}}{\partial {\vec{x}}^{T}} = {(\begin{matrix} \frac{\partial f_{1}}{\partial x_{1}} & \dots & \frac{\partial f_{1}}{\partial x_{3}} \\ \frac{\partial f_{2}}{\partial x_{1}} & \dots & \frac{\partial f_{2}}{\partial x_{3}} \end{matrix})}_{2 \times 3} .$

一般地,

$f : R^{n \times 1} \to R$ , 则 $D_{x} f (\vec{x}) = \frac{\partial f (x)}{\partial x^{T}} = (\frac{\partial f}{\partial x_{1}}, \dots, \frac{\partial f}{\partial x_{n}}), \nabla_{x} f (x) = \frac{\partial f (x)}{\partial x} .$
$f : R^{m \times n} \to R$ , 定义 $vec (X) = (x_{11}, \dots, x_{n 1}, x_{12}, \dots, x_{m 2}, \dots, x_{1 n}, \dots, x_{m n})^{T}$ ^[1], 定义 $\begin{aligned} D_{vec (X)} f (X) & = \frac{\partial f (X)}{\partial {vec}^{T} (X)} = (\frac{\partial f}{\partial x_{11}}, \dots, \frac{\partial f}{\partial x_{m 1}}, \dots, \frac{\partial f}{\partial x_{1 n}}, \dots, \frac{\partial f}{\partial x_{m n}}), \\ D_{X} f (X) & = \frac{\partial f (X)}{\partial X_{m \times n}^{T}} = {(\begin{array}{c} \frac{\partial f}{\partial X_{11}} & \dots & \frac{\partial f}{\partial X_{m 1}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial f}{\partial X_{1 n}} & \dots & \frac{\partial f}{\partial X_{m n}} \end{array})}_{n \times m}, \end{aligned}$ 以及类似的 $\nabla_{vec (X)} f (X), \nabla_{X} f (X)$ .
$F : R^{m \times n} \to R^{p \times q}$ , 则类似地可定义 $vec (F (X))$ , 则 $\begin{aligned} D_{X} F (X) & = {(\frac{\partial {vec}_{p q \times 1} (F (X))}{\partial {vec}_{m n \times 1}^{T} (X)})}_{p q \times m n}, \\ \nabla_{X} F (X) & = {(\frac{\partial {vec}_{p q \times 1}^{T} (F (X))}{\partial {vec}_{m n \times 1} (X)})}_{m n \times p q} . \end{aligned}$

2 基于本质结构的数学推导

也即, 直接采用定义计算.

$\vec{x} = (x_{1}, \dots, x_{n})^{T}$ , 用上述定义计算得:
1. 设 $c \in R$ . $\begin{aligned} \frac{\partial c}{\partial x} & = 0_{n \times 1}, \\ \frac{\partial [c_{1} f (x) + c_{2} g (x)]}{\partial x} & = c_{1} \frac{\partial f}{\partial x} + c_{2} \frac{\partial g}{\partial x}, \\ \frac{\partial (f \cdot g)}{\partial x} & = \frac{\partial f}{\partial x} g (x) + \frac{\partial g}{\partial x} f (x), \\ \frac{\partial (f / g)}{\partial x} & = \frac{1}{g^{2} (x)} (\frac{\partial f}{\partial x} g (x) - f \frac{\partial g}{\partial x}) . \end{aligned}$
2. 设 $a = (a_{1}, \dots, a_{n})^{T}$ , $A = (a_{i j})_{n \times n}$ . $\begin{aligned} \frac{\partial x^{T} a}{\partial x} & = \frac{\partial (a^{T} x)}{\partial x} = a, \\ \frac{\partial (x^{T} x)}{\partial x} & = 2 x, \\ \frac{\partial (x^{T} A x)}{\partial x} & = (A + A^{T}) x, \\ \frac{\partial (a^{T} x x^{T} b)}{\partial x} & = (a b^{T} + b a^{T}) x . \end{aligned}$

推导

注意到 $\frac{\partial (x^{T} x)}{\partial x} = \frac{\partial (\sum_{i = 1}^{n} x_{i}^{2})}{\partial x} = 2 (x_{1}, \dots, x_{n})^{T} = 2 x .$
同理 $\begin{aligned} \frac{\partial (x^{T} A x)}{\partial x} = \frac{\partial (\sum_{i, j} a_{i j} x_{i} x_{j})}{\partial x} \\ = & (\sum_{j} a_{1 j} x_{j} + \sum_{i} a_{i 1} x_{i}, \dots, \sum_{j} a_{n j} x_{j} + \sum_{i} a_{i n} x_{i}) \\ = & (A + A^{T}) x . \end{aligned}$
最后因为 $a^{T} x, x^{T} b \in R$ , 结合刚才的结果 $\frac{\partial (a^{T} x x^{T} b)}{\partial x} = \frac{\partial (x^{T} a b^{T} x)}{\partial x} = (a b^{T} + b a^{T}) x .$

$X = (x_{i j})_{m \times n}$ ,
1. 与 1 (1) 完全相同
2. $\begin{align*}$

\frac{\partial (a ^{\mathrm{T}}X ^{\mathrm{T}}b)}{\partial X}&= ba ^{\mathrm{T}},\
\frac{\partial (a ^{\mathrm{T}}XX ^{\mathrm{T}}b)}{\partial X}&= (ab ^{\mathrm{T}}+ba ^{\mathrm{T}})X,\
\frac{\partial (a ^{\mathrm{T}}X ^{\mathrm{T}}Xb)}{\partial X}&= X(ba ^{\mathrm{T}}+ab ^{\mathrm{T}}).
\end{align*}$$

3 基于迹的快速求导法

首先回顾迹的性质: $tr (A^{T}) = tr (A), tr (A B) = tr (B A) .$
此外, 定义全微分. 若 $f : R^{m \times n} \to R$ , $\frac{\partial f}{\partial X} \in R^{m \times n}$ , 则 $d f = \sum_{i = 1}^{m} \sum_{j = 1}^{n} \frac{\partial f}{\partial X_{i j}} d X_{i j} .$ 又 $tr (A^{T} B) = \sum_{i = 1}^{m} \sum_{j = 1}^{n} A_{i j} B_{i j},$ 则联立两式得 $\begin{matrix} (3.1) & d f = tr ({(\frac{\partial f}{\partial X})}^{T} \cdot d X) . \end{matrix}$

全微分的性质

0. 常数、线性和、乘除同前; $d F_{p \times q}^{T} (x) = (d F_{p \times q} (x))^{T}$ .

$d (A F (X) B) = A d (F (X)) B$ .
$d | X | = | X | tr (X^{- 1} d X)$ .
$d (X^{- 1}) = \tr | F (X) | F (X)^{- 1} d F (X)$ .

证明

2. 根据行列式的性质: $| X | = x_{i 1} A_{i 1} + \dots + x_{i n} A_{i n}, \forall i,$ 从而 $\frac{\partial | X |}{\partial x_{i j}} = A_{i j}$ , 从而 $\frac{\partial | X |}{\partial X^{T}} = (A_{i j})_{n \times n} = X^{*} = X^{- 1} | X | .$ 从而根据 (3.1) $d | X | = \tr (\frac{\partial | X |}{\partial X^{T}} d X) = \tr (X^{- 1} | X | d X) = | X | \tr (X^{- 1} d X) .$
3. 由于 $I = X X^{- 1}$ , 故 $d X \cdot X^{- 1} + X d (X^{- 1}) = 0$ .

接下来我们来看一些具体的例子. 首先注意, 对 $f : R^{m \times n} \to R$ , $\begin{matrix} (3.2) & \tr (f (X)) = f (X) \Rightarrow d tr f (X) = d f (X) = tr d f (X) . \end{matrix}$

例子

$\frac{\partial a^{T} X X^{T} b}{\partial X} = (a b^{T} + b a^{T}) X$ . 这是因为首先根据 (3.2) 和迹的基本性质: $\begin{aligned} d (a^{T} X X^{T} b) & = \tr (d (a^{T} X X^{T} b)) \\ = \tr (a^{T} (d (X) X^{T} + X d (X^{T})) b) \\ = \tr (a^{T} d X X^{T} b) + \tr (a^{T} X d X^{T} b) \\ = \tr (X^{T} b a^{T} d X) + \tr (b^{T} d X X^{T} a) \\ = \tr (X^{T} b a^{T} d X) + \tr (X^{T} a b^{T} d X) \\ = \tr (X^{T} (b a^{T} + a b^{T}) d X), \end{aligned}$ 从而结果为 $(X^{T} (b a^{T} + a b^{T}))^{T} = (a b^{T} + b a^{T}) X$ .
$\frac{\partial \tr (X^{T} X)}{\partial X} = 2 X$ . 因为 $\begin{aligned} d (\tr (X^{T} X)) & = \tr (d X^{T} X + d X X^{T}) = \tr (2 X^{T} d X) . \end{aligned}$
$\frac{\partial \log | X |}{\partial X} = (X^{- 1})^{T}$ . 利用性质第二条: $\begin{aligned} d \log | X | & = \tr (d \log | X |) = \tr (\frac{1}{| X |} d | X |) \\ = \tr (\tr (X^{- 1} d X)) = \tr (X^{- 1} d X) . \end{aligned}$
$\frac{\partial | X^{- 1} |}{\partial X} = - | X^{- 1} | (X^{- 1})^{T}$ . 同上, 利用性质第二、三条: $\begin{aligned} d | X^{- 1} | & = | X^{- 1} | \tr ((X^{- 1})^{- 1} d (X^{- 1})) = | X^{- 1} | \tr (X d X^{- 1}) \\ = | X^{- 1} | \tr (- X X^{- 1} d X X^{- 1}) = | X^{- 1} | \tr (- X^{- 1} d X) . \end{aligned}$
$\frac{\partial \tr (X + A)^{- 1}}{\partial X} = - ((X + A)^{- 2})^{T}$ . 因为 $\begin{array}{r} \tr (d (X + A)^{- 1}) = \tr (- (X + A)^{- 1} (d (X + A)) (X + A)^{- 1}) = \tr (- (X + A)^{- 2} d X) . \end{array}$
$\frac{\partial | X^{3} |}{\partial X} = 3 | X |^{3} (X^{- 1})^{T}$ . 因为 $\begin{aligned} d | X^{3} | & = \tr (d | X |^{3}) = \tr (3 | X |^{2} d | X |) \\ = \tr (3 | X |^{3} \tr (X^{- 1} d X)) = \tr (3 | X |^{3} X^{- 1} d X) . \end{aligned}$

也即顺着矩阵纵向行进, 然后回到第二列, 继续纵向行进, 如此往复 ↩︎