矩阵求导常用公式解析：标量、向量与矩阵的导数计算

矩阵求导常用公式解析：标量、向量与矩阵的导数计算
- 矩阵求导的布局问题
- - 1. 分子布局 vs 分母布局对比表
  - 2. 布局冲突的典型场景分析
  - 3. 混合布局的兼容性处理
- 一、标量对向量求导
- - 1. 线性函数求导
  - 2. 二次型函数（对称矩阵）
  - 3. 二次型函数（非对称矩阵）
- 二、向量对向量求导（分子布局）
- - 1. 线性变换的雅可比矩阵（详细推导）
  - 2. 一般向量函数的雅可比矩阵（补充关键说明）
  - 3. 链式法则的矩阵形式
- 三、标量对矩阵求导

矩阵求导常用公式解析：标量、向量与矩阵的导数计算

矩阵求导是机器学习、优化理论中的重要数学工具。本文将系统推导标量对向量、向量对向量、标量对矩阵的求导公式，并解析分子布局与分母布局的核心差异。

矩阵求导的布局问题

1. 分子布局 vs 分母布局对比表

特性	分子布局 (Numerator Layout)	分母布局 (Denominator Layout)
导数维度	$\times n$	$\times m$
元素排列规则	$\frac{\partial y_i}{\partial x_j}$	$\frac{\partial y_j}{\partial x_i}$
线性变换示例	$\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}} = \mathbf{A}$	$\frac{\partial \mathbf{Ax}}{\partial \mathbf{x}} = \mathbf{A}^T$
链式法则顺序	从左到右自然顺序	需要转置调整顺序

2. 布局冲突的典型场景分析

场景：计算 $\frac{\partial \mathbf{z}}{\partial \mathbf{x}}$ ，其中 $\mathbf{z} = \mathbf{W}\mathbf{x} + \mathbf{b}$

分子布局：
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}} = \mathbf{W} \quad (\text{维度 } m \times n)$
分母布局：
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}} = \mathbf{W}^T \quad (\text{维度 } n \times m)$

应用建议：

在反向传播算法中，分母布局更自然（梯度维度与参数维度一致）
在理论推导中，分子布局更便于公式链式展开

3. 混合布局的兼容性处理

当不同文献使用不同布局时，可通过以下规则转换：
$\left( \frac{\partial \mathbf{y}}{\partial \mathbf{x}} \right)_{\text{Denominator}} = \left( \frac{\partial \mathbf{y}}{\partial \mathbf{x}} \right)_{\text{Numerator}}^T$

一、标量对向量求导

1. 线性函数求导

设向量 $\mathbf{a} = [a_1, a_2, \dots, a_n]^T$ ， $\mathbf{x} = [x_1, x_2, \dots, x_n]^T$ ，标量函数为：

$\mathbf{a}^T \mathbf{x} = \sum_{i=1}^n a_i x_i$

求导结果：
梯度向量为系数向量本身：

$\frac{\partial y}{\partial \mathbf{x}} = \begin{bmatrix} a_1 \\ a_2 \\ \vdots \\ a_n \end{bmatrix} = \mathbf{a}$

2. 二次型函数（对称矩阵）

设对称矩阵 $\mathbf{A} \in \mathbb{R}^{n \times n}$ ，标量函数：

$\mathbf{x}^T \mathbf{A} \mathbf{x} = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j$

求导过程：
对分量 $x_k$ 求偏导：

$\frac{\partial y}{\partial x_k} = 2 \sum_{i=1}^n a_{ik} x_i$

梯度向量：
$\frac{\partial y}{\partial \mathbf{x}} = 2 \mathbf{A} \mathbf{x}$

3. 二次型函数（非对称矩阵）

当 $\mathbf{A}$ 非对称时，标量函数展开同上。对 $x_k$ 求偏导：

$\frac{\partial y}{\partial x_k} = (\mathbf{A}\mathbf{x})_k + (\mathbf{A}^T \mathbf{x})_k$

梯度向量：
$\frac{\partial y}{\partial \mathbf{x}} = (\mathbf{A} + \mathbf{A}^T) \mathbf{x}$

二、向量对向量求导（分子布局）

1. 线性变换的雅可比矩阵（详细推导）

设 $\mathbf{y} = \mathbf{A}\mathbf{x} + \mathbf{b}$ ，其中：

$\mathbf{A} \in \mathbb{R}^{m \times n}$ 为系数矩阵
$\mathbf{x} \in \mathbb{R}^n$ 为输入向量
$\mathbf{b} \in \mathbb{R}^m$ 为偏置向量

分量化表示：
$y_i = \sum_{j=1}^n a_{ij} x_j + b_i \quad (i=1,2,\dots,m)$

对分量求偏导：
对每个 $y_i$ 关于 $x_j$ 求偏导：
$\frac{\partial y_i}{\partial x_j} = a_{ij}$

雅可比矩阵构造：
将所有偏导数按如下规则排列：

行索引对应输出分量 $y_i$
列索引对应输入分量 $x_j$

$\frac{\partial \mathbf{y}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} & \cdots & \frac{\partial y_1}{\partial x_n} \\ \frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2} & \cdots & \frac{\partial y_2}{\partial x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_m}{\partial x_1} & \frac{\partial y_m}{\partial x_2} & \cdots & \frac{\partial y_m}{\partial x_n} \end{bmatrix} = \mathbf{A}$

2. 一般向量函数的雅可比矩阵（补充关键说明）

对向量函数 $\mathbf{y} = \mathbf{f}(\mathbf{x}) = [f_1(\mathbf{x}), f_2(\mathbf{x}), \dots, f_m(\mathbf{x})]^T$ ，其雅可比矩阵的构造规则为：

每个元素 $\frac{\partial f_i}{\partial x_j}$ 表示第 $i$ 个输出对第 $j$ 个输入的偏导
行维度 $m$ 由输出向量维度决定
列维度 $n$ 由输入向量维度决定

关键特性：

若 $\mathbf{f}(\mathbf{x})$ 为线性函数（即 $\mathbf{f}(\mathbf{x}) = \mathbf{A}\mathbf{x}$ ），雅可比矩阵退化为系数矩阵 $\mathbf{A}$
若 $\mathbf{f}(\mathbf{x})$ 为非线性函数（如神经网络激活函数），需逐元素计算偏导数

3. 链式法则的矩阵形式

设复合函数 $\mathbf{z} = \mathbf{g}(\mathbf{y}) = \mathbf{g}(\mathbf{f}(\mathbf{x}))$ ，则链式法则的矩阵形式为：
$\frac{\partial \mathbf{z}}{\partial \mathbf{x}} = \frac{\partial \mathbf{z}}{\partial \mathbf{y}} \cdot \frac{\partial \mathbf{y}}{\partial \mathbf{x}}$
其中：

$\frac{\partial \mathbf{z}}{\partial \mathbf{y}} \in \mathbb{R}^{p \times m}$
$\frac{\partial \mathbf{y}}{\partial \mathbf{x}} \in \mathbb{R}^{m \times n}$
最终结果维度为 $\times n$

三、标量对矩阵求导

1. 标量函数 $\text{tr}(\mathbf{A})$ 对矩阵 $\mathbf{A}$ 求导

矩阵的迹：
$\text{tr}(\mathbf{A}) = \sum_{i=1}^n a_{ii}$
对矩阵元素 $a_{ij}$ 求偏导：
- 当 $\neq j$ 时，
  $\frac{\partial y}{\partial a_{ij}} = 0$
- 当 $i = j$ 时，
  $\frac{\partial y}{\partial a_{ii}} = 1$
梯度矩阵：
$\frac{\partial y}{\partial \mathbf{A}} = \mathbf{I}$
（其中 $\mathbf{I}$ 是与 $\mathbf{A}$ 同维度的单位矩阵）

2. 标量函数 $\text{tr}(\mathbf{A} \mathbf{B})$ 对矩阵 $\mathbf{A}$ 求导（假设 $\mathbf{A}$ 和 $\mathbf{B}$ 可相乘）

迹的性质：
$\text{tr}(\mathbf{A} \mathbf{B}) = \text{tr}(\mathbf{B} \mathbf{A}) \quad (\text{若维度合适})$
展开形式：
设 $\mathbf{A}$ 为 $\times n$ 矩阵， $\mathbf{B}$ 为 $\times m$ 矩阵，则
$\sum_{i=1}^m \sum_{j=1}^n a_{ij} b_{ji}$
对 $a_{kl}$ 求偏导：
$\frac{\partial y}{\partial a_{kl}} = b_{lk}$
梯度矩阵：
$\frac{\partial y}{\partial \mathbf{A}} = \mathbf{B}^T$