上一章:机器学习05——多分类学习与类别不平衡
下一章:机器学习07——贝叶斯分类器
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备
文章目录
- 一、间隔与支持向量(SVM的核心思想)
- (一)超平面与间隔
- 二、对偶问题(SVM的求解转化)
- (一)对偶问题的推导
- (二)解的稀疏性
- 三、核函数(处理线性不可分问题)
- (一)核函数的作用
- (二)常用核函数
- 四、软间隔与正则化(应对现实数据)
- (一)软间隔的原始问题
- (二)对偶问题与正则化
- 五、支持向量回归(SVR)
- (一)核心思想
- (二)对偶与预测
- 六、核方法(扩展与推广)
- (一)表示定理
- (二)常见核化模型
- 七、实用工具与软件包
一、间隔与支持向量(SVM的核心思想)
支持向量机(SVM)的核心是在样本空间中寻找最优超平面,实现对不同类别样本的分隔,其关键在于最大化间隔以提升泛化能力。
(一)超平面与间隔
- 超平面方程:在d维样本空间中,超平面可表示为w⊤x+b=0w^\top x + b = 0w⊤x+b=0,其中www为法向量(决定超平面方向),bbb为偏置项(决定超平面位置)。
- 间隔定义:样本到超平面的距离称为间隔。对于两类样本,需同时考虑正例和反例到超平面的距离,其中支持向量(离超平面最近的样本)决定了“最大间隔”——即超平面与两侧支持向量的距离之和(2/∥w∥2/\|w\|2/∥w∥)。
- 最优超平面:目标是找到参数www和bbb,使间隔最大,即:
argmaxw,b2∥w∥s.t.yi(w⊤xi+b)≥1,i=1,2,...,m\underset{w, b}{arg max} \frac{2}{\|w\|} \quad s.t. \quad y_i(w^\top x_i + b) \geq 1, \, i=1,2,...,mw,bargmax∥w∥2s.t.yi(w⊤xi+b)≥1,i=1,2,...,m
(约束条件确保所有样本都在间隔外侧,yiy_iyi为样本标签,+1或-1)。
该问题可等价转化为最小化12∥w∥2\frac{1}{2}\|w\|^221∥w∥2(简化计算)。
二、对偶问题(SVM的求解转化)
为简化最优超平面的求解,SVM通过拉格朗日乘子法将原始问题转化为对偶问题,便于引入核函数并利用解的稀疏性。
(一)对偶问题的推导
- 拉格朗日函数:引入拉格朗日乘子αi≥0\alpha_i \geq 0αi≥0,构造函数:
L(w,b,α)=12∥w∥2−∑i=1mαi(yi(w⊤xi+b)−1)L(w, b, \alpha) = \frac{1}{2}\|w\|^2 - \sum_{i=1}^m \alpha_i\left(y_i(w^\top x_i + b) - 1\right)L(w,b,α)=21∥w∥2−i=1∑mαi(yi(w⊤xi+b)−1) - 偏导为零条件:对www和bbb求偏导并令其为零,得到:
w=∑i=1mαiyixi,∑i=1mαiyi=0w = \sum_{i=1}^m \alpha_i y_i x_i, \quad \sum_{i=1}^m \alpha_i y_i = 0w=i=1∑mαiyixi,i=1∑mαiyi=0 - 对偶问题:将上述结果回代,原始问题转化为最大化:
∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxi⊤xj\sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^\top x_ji=1∑mαi−21i=1∑mj=1∑mαiαjyiyjxi⊤xj
约束为∑i=1mαiyi=0\sum_{i=1}^m \alpha_i y_i = 0∑i=1mαiyi=0且αi≥0\alpha_i \geq 0αi≥0。
(二)解的稀疏性
根据KKT条件,仅支持向量对应的αi>0\alpha_i > 0αi>0(非支持向量的αi=0\alpha_i = 0αi=0),因此最终模型仅依赖支持向量:
f(x)=w⊤x+b=∑i=1mαiyixi⊤x+bf(x) = w^\top x + b = \sum_{i=1}^m \alpha_i y_i x_i^\top x + bf(x)=w⊤x+b=i=1∑mαiyixi⊤x+b
这种稀疏性使SVM在预测时仅需计算与支持向量的内积,提升效率。
三、核函数(处理线性不可分问题)
当样本在原始空间线性不可分时,SVM通过核函数将样本映射到高维特征空间,使其线性可分,同时避免显式计算高维映射。
(一)核函数的作用
- 映射与内积:设样本xxx在高维空间的映射为ϕ(x)\phi(x)ϕ(x),则超平面可表示为f(x)=w⊤ϕ(x)+bf(x) = w^\top \phi(x) + bf(x)=w⊤ϕ(x)+b。核函数κ(xi,xj)=ϕ(xi)⊤ϕ(xj)\kappa(x_i, x_j) = \phi(x_i)^\top \phi(x_j)κ(xi,xj)=ϕ(xi)⊤ϕ(xj)直接计算高维空间内积,避免维度灾难。
- Mercer定理:若一个对称函数对应的核矩阵半正定,则它可作为核函数使用(保证映射存在)。
(二)常用核函数
名称 | 表达式 | 参数说明 |
---|---|---|
线性核 | κ(xi,xj)=xi⊤xj\kappa(x_i, x_j) = x_i^\top x_jκ(xi,xj)=xi⊤xj | 适用于线性可分数据 |
多项式核 | κ(xi,xj)=(xi⊤xj+1)d\kappa(x_i, x_j) = (x_i^\top x_j + 1)^dκ(xi,xj)=(xi⊤xj+1)d | d≥1d \geq 1d≥1为多项式次数 |
高斯核 | κ(xi,xj)=exp(−∣xi−xj∣22δ2)\kappa(x_i, x_j) = \exp(-\frac{|x_i - x_j|^2}{2\delta^2})κ(xi,xj)=exp(−2δ2∣xi−xj∣2) | δ>0\delta > 0δ>0为带宽(控制平滑度) |
拉普拉斯核 | κ(xi,xj)=exp(−∣xi−xj∣δ)\kappa(x_i, x_j) = \exp(-\frac{|x_i - x_j|}{\delta})κ(xi,xj)=exp(−δ∣xi−xj∣) | δ>0\delta > 0δ>0,类似高斯核但更鲁棒 |
Sigmoid核 | κ(xi,xj)=tanh(βxi⊤xj+θ)\kappa(x_i, x_j) = \tanh(\beta x_i^\top x_j + \theta)κ(xi,xj)=tanh(βxi⊤xj+θ) | β>0,θ<0\beta > 0, \theta < 0β>0,θ<0,模拟神经网络 |
四、软间隔与正则化(应对现实数据)
现实中数据常存在噪声或非线性,难以完全线性可分,因此引入“软间隔”,允许部分样本不满足间隔约束,通过正则化平衡间隔最大化与错误样本数量。
(一)软间隔的原始问题
目标是最小化
12∥w∥2+C∑i=1ml0/1(yi(w⊤ϕ(xi)+b)−1)\frac{1}{2}\|w\|^2 + C\sum_{i=1}^m l_{0/1}(y_i(w^\top \phi(x_i) + b) - 1)21∥w∥2+Ci=1∑ml0/1(yi(w⊤ϕ(xi)+b)−1)
其中:
- l0/1l_{0/1}l0/1为0/1损失函数(样本不满足约束时为1,否则为0);
- C>0C > 0C>0为正则化参数,控制对错误样本的惩罚力度(CCC越大,对错误的容忍度越低)。
由于0/1损失函数非凸,实际使用hinge损失(l(z)=max(0,1−z)l(z) = \max(0, 1 - z)l(z)=max(0,1−z))替代,其数学性质更优且是0/1损失的上界。
(二)对偶问题与正则化
软间隔的对偶问题与硬间隔类似,但αi\alpha_iαi需满足0≤αi≤C0 \leq \alpha_i \leq C0≤αi≤C。正则化项12∥w∥2\frac{1}{2}\|w\|^221∥w∥2控制模型复杂度,经验风险项∑l(⋅)\sum l(\cdot)∑l(⋅)控制训练误差,形成结构风险最小化框架,可推广至其他模型(如LASSO、逻辑回归)。
五、支持向量回归(SVR)
SVM不仅用于分类,还可扩展为回归模型(SVR),允许预测值与真实值存在一定偏差(ϵ\epsilonϵ间隔带),以保持稀疏性。
(一)核心思想
- 间隔带:当预测值f(xi)f(x_i)f(xi)与真实值yiy_iyi的偏差在ϵ\epsilonϵ以内时,损失为0;超出则计算损失(ξi+ξ^i\xi_i + \hat{\xi}_iξi+ξ^i,分别对应高估和低估)。
- 原始问题:
minw,b,ξi,ξ^i12∥w∥2+C∑i=1m(ξi+ξ^i)\min_{w, b, \xi_i, \hat{\xi}_i} \frac{1}{2}\|w\|^2 + C\sum_{i=1}^m (\xi_i + \hat{\xi}_i)w,b,ξi,ξ^imin21∥w∥2+Ci=1∑m(ξi+ξ^i)
约束为yi−f(xi)≤ϵ+ξiy_i - f(x_i) \leq \epsilon + \xi_iyi−f(xi)≤ϵ+ξi,f(xi)−yi≤ϵ+ξ^if(x_i) - y_i \leq \epsilon + \hat{\xi}_if(xi)−yi≤ϵ+ξ^i,ξi,ξ^i≥0\xi_i, \hat{\xi}_i \geq 0ξi,ξ^i≥0。
(二)对偶与预测
SVR的对偶问题通过引入αi\alpha_iαi和α^i\hat{\alpha}_iα^i求解,最终模型为:
f(x)=∑i=1m(α^i−αi)κ(xi,x)+bf(x) = \sum_{i=1}^m (\hat{\alpha}_i - \alpha_i) \kappa(x_i, x) + bf(x)=i=1∑m(α^i−αi)κ(xi,x)+b
仅与支持向量(偏差超出ϵ\epsilonϵ的样本)有关,保持稀疏性。
六、核方法(扩展与推广)
核函数的思想可推广至其他线性模型,形成“核化”模型,通过高维映射提升非线性拟合能力。
(一)表示定理
任何基于核函数的学习模型,其最优解均可表示为训练样本核函数的线性组合,即h∗(x)=∑i=1mαiκ(xi,x)+bh^*(x) = \sum_{i=1}^m \alpha_i \kappa(x_i, x) + bh∗(x)=∑i=1mαiκ(xi,x)+b。这为核方法的通用性提供了理论基础。
(二)常见核化模型
- 核LDA:将样本映射到高维空间后做线性判别分析,提升分类效果;
- 核PCA:在高维空间进行主成分分析,更好地提取非线性特征。
七、实用工具与软件包
成熟的SVM工具包包括LIBSVM、SVMlight等,支持分类、回归及多种核函数,广泛应用于实际任务(如文档分类、图像识别)。
上一章:机器学习05——多分类学习与类别不平衡
下一章:机器学习07——贝叶斯分类器
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备