上一章：机器学习05——多分类学习与类别不平衡
下一章：机器学习07——贝叶斯分类器
机器学习实战项目：【从 0 到 1 落地】机器学习实操项目目录：覆盖入门到进阶，大学生就业 / 竞赛必备

文章目录

- - 一、间隔与支持向量（SVM的核心思想）
  - - （一）超平面与间隔
  - 二、对偶问题（SVM的求解转化）
  - - （一）对偶问题的推导
    - （二）解的稀疏性
  - 三、核函数（处理线性不可分问题）
  - - （一）核函数的作用
    - （二）常用核函数
  - 四、软间隔与正则化（应对现实数据）
  - - （一）软间隔的原始问题
    - （二）对偶问题与正则化
  - 五、支持向量回归（SVR）
  - - （一）核心思想
    - （二）对偶与预测
  - 六、核方法（扩展与推广）
  - - （一）表示定理
    - （二）常见核化模型
  - 七、实用工具与软件包

一、间隔与支持向量（SVM的核心思想）

支持向量机（SVM）的核心是在样本空间中寻找最优超平面，实现对不同类别样本的分隔，其关键在于最大化间隔以提升泛化能力。

（一）超平面与间隔

在这里插入图片描述

超平面方程：在d维样本空间中，超平面可表示为 $w⊤x+b=0w^\top x + b = 0$ ，其中 $w$ 为法向量（决定超平面方向）， $b$ 为偏置项（决定超平面位置）。
间隔定义：样本到超平面的距离称为间隔。对于两类样本，需同时考虑正例和反例到超平面的距离，其中支持向量（离超平面最近的样本）决定了“最大间隔”——即超平面与两侧支持向量的距离之和（ $2/∥w∥2/\|w\|$ ）。
最优超平面：目标是找到参数 $w$ 和 $b$ ，使间隔最大，即：
$argmaxw,b2∥w∥s.t.yi(w⊤xi+b)≥1,i=1,2,...,m\underset{w, b}{arg max} \frac{2}{\|w\|} \quad s.t. \quad y_i(w^\top x_i + b) \geq 1, \, i=1,2,...,m$
（约束条件确保所有样本都在间隔外侧， $y_i$ 为样本标签，+1或-1）。
该问题可等价转化为最小化 $12∥w∥2\frac{1}{2}\|w\|^2$ （简化计算）。

二、对偶问题（SVM的求解转化）

为简化最优超平面的求解，SVM通过拉格朗日乘子法将原始问题转化为对偶问题，便于引入核函数并利用解的稀疏性。

（一）对偶问题的推导

拉格朗日函数：引入拉格朗日乘子 $αi≥0\alpha_i \geq 0$ ，构造函数：
$\alpha) = \frac{1}{2}\|w\|^2 - \sum_{i=1}^m \alpha_i\left(y_i(w^\top x_i + b) - 1\right)$
偏导为零条件：对 $w$ 和 $b$ 求偏导并令其为零，得到：
$\sum_{i=1}^m \alpha_i y_i x_i, \quad \sum_{i=1}^m \alpha_i y_i = 0$
对偶问题：将上述结果回代，原始问题转化为最大化：
$∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxi⊤xj\sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^\top x_j$
约束为 $∑i=1mαiyi=0\sum_{i=1}^m \alpha_i y_i = 0$ 且 $αi≥0\alpha_i \geq 0$ 。

（二）解的稀疏性

根据KKT条件，仅支持向量对应的 $αi>0\alpha_i > 0$ （非支持向量的 $αi=0\alpha_i = 0$ ），因此最终模型仅依赖支持向量：
$w^\top x + b = \sum_{i=1}^m \alpha_i y_i x_i^\top x + b$
这种稀疏性使SVM在预测时仅需计算与支持向量的内积，提升效率。

三、核函数（处理线性不可分问题）

当样本在原始空间线性不可分时，SVM通过核函数将样本映射到高维特征空间，使其线性可分，同时避免显式计算高维映射。
在这里插入图片描述

（一）核函数的作用

映射与内积：设样本 $x$ 在高维空间的映射为 $ϕ(x)\phi(x)$ ，则超平面可表示为 $w^\top \phi(x) + b$ 。核函数 $κ(xi,xj)=ϕ(xi)⊤ϕ(xj)\kappa(x_i, x_j) = \phi(x_i)^\top \phi(x_j)$ 直接计算高维空间内积，避免维度灾难。
Mercer定理：若一个对称函数对应的核矩阵半正定，则它可作为核函数使用（保证映射存在）。

（二）常用核函数

名称	表达式	参数说明
线性核	$κ(xi,xj)=xi⊤xj\kappa(x_i, x_j) = x_i^\top x_j$	适用于线性可分数据
多项式核	$κ(xi,xj)=(xi⊤xj+1)d\kappa(x_i, x_j) = (x_i^\top x_j + 1)^d$	$\geq 1$ 为多项式次数
高斯核	$κ(xi,xj)=exp⁡(−∣xi−xj∣22δ2)\kappa(x_i, x_j) = \exp(-\frac{\|x_i - x_j\|^2}{2\delta^2})$	$δ>0\delta > 0$ 为带宽（控制平滑度）
拉普拉斯核	$κ(xi,xj)=exp⁡(−∣xi−xj∣δ)\kappa(x_i, x_j) = \exp(-\frac{\|x_i - x_j\|}{\delta})$	$δ>0\delta > 0$ ，类似高斯核但更鲁棒
Sigmoid核	$κ(xi,xj)=tanh⁡(βxi⊤xj+θ)\kappa(x_i, x_j) = \tanh(\beta x_i^\top x_j + \theta)$	$β>0,θ<0\beta > 0, \theta < 0$ ，模拟神经网络

四、软间隔与正则化（应对现实数据）

现实中数据常存在噪声或非线性，难以完全线性可分，因此引入“软间隔”，允许部分样本不满足间隔约束，通过正则化平衡间隔最大化与错误样本数量。
在这里插入图片描述

（一）软间隔的原始问题

目标是最小化

$12∥w∥2+C∑i=1ml0/1(yi(w⊤ϕ(xi)+b)−1)\frac{1}{2}\|w\|^2 + C\sum_{i=1}^m l_{0/1}(y_i(w^\top \phi(x_i) + b) - 1)$

其中：

$l_{0/1}$ 为0/1损失函数（样本不满足约束时为1，否则为0）；
$C > 0$ 为正则化参数，控制对错误样本的惩罚力度（ $C$ 越大，对错误的容忍度越低）。

由于0/1损失函数非凸，实际使用hinge损失（ $\max(0, 1 - z)$ ）替代，其数学性质更优且是0/1损失的上界。
在这里插入图片描述

（二）对偶问题与正则化

软间隔的对偶问题与硬间隔类似，但 $αi\alpha_i$ 需满足 $\leq \alpha_i \leq C$ 。正则化项 $12∥w∥2\frac{1}{2}\|w\|^2$ 控制模型复杂度，经验风险项 $∑l(⋅)\sum l(\cdot)$ 控制训练误差，形成结构风险最小化框架，可推广至其他模型（如LASSO、逻辑回归）。

五、支持向量回归（SVR）

SVM不仅用于分类，还可扩展为回归模型（SVR），允许预测值与真实值存在一定偏差（ $ϵ\epsilon$ 间隔带），以保持稀疏性。
在这里插入图片描述

（一）核心思想

间隔带：当预测值 $f(x_i)$ 与真实值 $y_i$ 的偏差在 $ϵ\epsilon$ 以内时，损失为0；超出则计算损失（ $ξi+ξ^i\xi_i + \hat{\xi}_i$ ，分别对应高估和低估）。
原始问题：
$min⁡w,b,ξi,ξ^i12∥w∥2+C∑i=1m(ξi+ξ^i)\min_{w, b, \xi_i, \hat{\xi}_i} \frac{1}{2}\|w\|^2 + C\sum_{i=1}^m (\xi_i + \hat{\xi}_i)$
约束为 $yi−f(xi)≤ϵ+ξiy_i - f(x_i) \leq \epsilon + \xi_i$ ， $f(xi)−yi≤ϵ+ξ^if(x_i) - y_i \leq \epsilon + \hat{\xi}_i$ ， $ξi,ξ^i≥0\xi_i, \hat{\xi}_i \geq 0$ 。

（二）对偶与预测

SVR的对偶问题通过引入 $αi\alpha_i$ 和 $α^i\hat{\alpha}_i$ 求解，最终模型为：
$f(x)=∑i=1m(α^i−αi)κ(xi,x)+bf(x) = \sum_{i=1}^m (\hat{\alpha}_i - \alpha_i) \kappa(x_i, x) + b$
仅与支持向量（偏差超出 $ϵ\epsilon$ 的样本）有关，保持稀疏性。