上一章:机器学习05——多分类学习与类别不平衡
下一章:机器学习07——贝叶斯分类器
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

文章目录

      • 一、间隔与支持向量(SVM的核心思想)
        • (一)超平面与间隔
      • 二、对偶问题(SVM的求解转化)
        • (一)对偶问题的推导
        • (二)解的稀疏性
      • 三、核函数(处理线性不可分问题)
        • (一)核函数的作用
        • (二)常用核函数
      • 四、软间隔与正则化(应对现实数据)
        • (一)软间隔的原始问题
        • (二)对偶问题与正则化
      • 五、支持向量回归(SVR)
        • (一)核心思想
        • (二)对偶与预测
      • 六、核方法(扩展与推广)
        • (一)表示定理
        • (二)常见核化模型
      • 七、实用工具与软件包

一、间隔与支持向量(SVM的核心思想)

支持向量机(SVM)的核心是在样本空间中寻找最优超平面,实现对不同类别样本的分隔,其关键在于最大化间隔以提升泛化能力。

(一)超平面与间隔

在这里插入图片描述

  • 超平面方程:在d维样本空间中,超平面可表示为w⊤x+b=0w^\top x + b = 0wx+b=0,其中www为法向量(决定超平面方向),bbb为偏置项(决定超平面位置)。
  • 间隔定义:样本到超平面的距离称为间隔。对于两类样本,需同时考虑正例和反例到超平面的距离,其中支持向量(离超平面最近的样本)决定了“最大间隔”——即超平面与两侧支持向量的距离之和(2/∥w∥2/\|w\|2/∥w)。
  • 最优超平面:目标是找到参数wwwbbb,使间隔最大,即:
    argmaxw,b2∥w∥s.t.yi(w⊤xi+b)≥1,i=1,2,...,m\underset{w, b}{arg max} \frac{2}{\|w\|} \quad s.t. \quad y_i(w^\top x_i + b) \geq 1, \, i=1,2,...,mw,bargmaxw2s.t.yi(wxi+b)1,i=1,2,...,m
    (约束条件确保所有样本都在间隔外侧,yiy_iyi为样本标签,+1或-1)。
    该问题可等价转化为最小化12∥w∥2\frac{1}{2}\|w\|^221w2(简化计算)。

二、对偶问题(SVM的求解转化)

为简化最优超平面的求解,SVM通过拉格朗日乘子法将原始问题转化为对偶问题,便于引入核函数并利用解的稀疏性。

(一)对偶问题的推导
  1. 拉格朗日函数:引入拉格朗日乘子αi≥0\alpha_i \geq 0αi0,构造函数:
    L(w,b,α)=12∥w∥2−∑i=1mαi(yi(w⊤xi+b)−1)L(w, b, \alpha) = \frac{1}{2}\|w\|^2 - \sum_{i=1}^m \alpha_i\left(y_i(w^\top x_i + b) - 1\right)L(w,b,α)=21w2i=1mαi(yi(wxi+b)1)
  2. 偏导为零条件:对wwwbbb求偏导并令其为零,得到:
    w=∑i=1mαiyixi,∑i=1mαiyi=0w = \sum_{i=1}^m \alpha_i y_i x_i, \quad \sum_{i=1}^m \alpha_i y_i = 0w=i=1mαiyixi,i=1mαiyi=0
  3. 对偶问题:将上述结果回代,原始问题转化为最大化:
    ∑i=1mαi−12∑i=1m∑j=1mαiαjyiyjxi⊤xj\sum_{i=1}^m \alpha_i - \frac{1}{2}\sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^\top x_ji=1mαi21i=1mj=1mαiαjyiyjxixj
    约束为∑i=1mαiyi=0\sum_{i=1}^m \alpha_i y_i = 0i=1mαiyi=0αi≥0\alpha_i \geq 0αi0
(二)解的稀疏性

根据KKT条件,仅支持向量对应的αi>0\alpha_i > 0αi>0(非支持向量的αi=0\alpha_i = 0αi=0),因此最终模型仅依赖支持向量:
f(x)=w⊤x+b=∑i=1mαiyixi⊤x+bf(x) = w^\top x + b = \sum_{i=1}^m \alpha_i y_i x_i^\top x + bf(x)=wx+b=i=1mαiyixix+b
这种稀疏性使SVM在预测时仅需计算与支持向量的内积,提升效率。

三、核函数(处理线性不可分问题)

当样本在原始空间线性不可分时,SVM通过核函数将样本映射到高维特征空间,使其线性可分,同时避免显式计算高维映射。
在这里插入图片描述

(一)核函数的作用
  • 映射与内积:设样本xxx在高维空间的映射为ϕ(x)\phi(x)ϕ(x),则超平面可表示为f(x)=w⊤ϕ(x)+bf(x) = w^\top \phi(x) + bf(x)=wϕ(x)+b。核函数κ(xi,xj)=ϕ(xi)⊤ϕ(xj)\kappa(x_i, x_j) = \phi(x_i)^\top \phi(x_j)κ(xi,xj)=ϕ(xi)ϕ(xj)直接计算高维空间内积,避免维度灾难。
  • Mercer定理:若一个对称函数对应的核矩阵半正定,则它可作为核函数使用(保证映射存在)。
(二)常用核函数
名称表达式参数说明
线性核κ(xi,xj)=xi⊤xj\kappa(x_i, x_j) = x_i^\top x_jκ(xi,xj)=xixj适用于线性可分数据
多项式核κ(xi,xj)=(xi⊤xj+1)d\kappa(x_i, x_j) = (x_i^\top x_j + 1)^dκ(xi,xj)=(xixj+1)dd≥1d \geq 1d1为多项式次数
高斯核κ(xi,xj)=exp⁡(−∣xi−xj∣22δ2)\kappa(x_i, x_j) = \exp(-\frac{|x_i - x_j|^2}{2\delta^2})κ(xi,xj)=exp(2δ2xixj2)δ>0\delta > 0δ>0为带宽(控制平滑度)
拉普拉斯核κ(xi,xj)=exp⁡(−∣xi−xj∣δ)\kappa(x_i, x_j) = \exp(-\frac{|x_i - x_j|}{\delta})κ(xi,xj)=exp(δxixj)δ>0\delta > 0δ>0,类似高斯核但更鲁棒
Sigmoid核κ(xi,xj)=tanh⁡(βxi⊤xj+θ)\kappa(x_i, x_j) = \tanh(\beta x_i^\top x_j + \theta)κ(xi,xj)=tanh(βxixj+θ)β>0,θ<0\beta > 0, \theta < 0β>0,θ<0,模拟神经网络

四、软间隔与正则化(应对现实数据)

现实中数据常存在噪声或非线性,难以完全线性可分,因此引入“软间隔”,允许部分样本不满足间隔约束,通过正则化平衡间隔最大化与错误样本数量。
在这里插入图片描述

(一)软间隔的原始问题

目标是最小化

12∥w∥2+C∑i=1ml0/1(yi(w⊤ϕ(xi)+b)−1)\frac{1}{2}\|w\|^2 + C\sum_{i=1}^m l_{0/1}(y_i(w^\top \phi(x_i) + b) - 1)21w2+Ci=1ml0/1(yi(wϕ(xi)+b)1)

其中:

  • l0/1l_{0/1}l0/1为0/1损失函数(样本不满足约束时为1,否则为0);
  • C>0C > 0C>0为正则化参数,控制对错误样本的惩罚力度(CCC越大,对错误的容忍度越低)。

由于0/1损失函数非凸,实际使用hinge损失l(z)=max⁡(0,1−z)l(z) = \max(0, 1 - z)l(z)=max(0,1z))替代,其数学性质更优且是0/1损失的上界。
在这里插入图片描述

(二)对偶问题与正则化

软间隔的对偶问题与硬间隔类似,但αi\alpha_iαi需满足0≤αi≤C0 \leq \alpha_i \leq C0αiC。正则化项12∥w∥2\frac{1}{2}\|w\|^221w2控制模型复杂度,经验风险项∑l(⋅)\sum l(\cdot)l()控制训练误差,形成结构风险最小化框架,可推广至其他模型(如LASSO、逻辑回归)。

五、支持向量回归(SVR)

SVM不仅用于分类,还可扩展为回归模型(SVR),允许预测值与真实值存在一定偏差(ϵ\epsilonϵ间隔带),以保持稀疏性。
在这里插入图片描述

(一)核心思想
  • 间隔带:当预测值f(xi)f(x_i)f(xi)与真实值yiy_iyi的偏差在ϵ\epsilonϵ以内时,损失为0;超出则计算损失(ξi+ξ^i\xi_i + \hat{\xi}_iξi+ξ^i,分别对应高估和低估)。
  • 原始问题
    min⁡w,b,ξi,ξ^i12∥w∥2+C∑i=1m(ξi+ξ^i)\min_{w, b, \xi_i, \hat{\xi}_i} \frac{1}{2}\|w\|^2 + C\sum_{i=1}^m (\xi_i + \hat{\xi}_i)w,b,ξi,ξ^imin21w2+Ci=1m(ξi+ξ^i)
    约束为yi−f(xi)≤ϵ+ξiy_i - f(x_i) \leq \epsilon + \xi_iyif(xi)ϵ+ξif(xi)−yi≤ϵ+ξ^if(x_i) - y_i \leq \epsilon + \hat{\xi}_if(xi)yiϵ+ξ^iξi,ξ^i≥0\xi_i, \hat{\xi}_i \geq 0ξi,ξ^i0
(二)对偶与预测

SVR的对偶问题通过引入αi\alpha_iαiα^i\hat{\alpha}_iα^i求解,最终模型为:
f(x)=∑i=1m(α^i−αi)κ(xi,x)+bf(x) = \sum_{i=1}^m (\hat{\alpha}_i - \alpha_i) \kappa(x_i, x) + bf(x)=i=1m(α^iαi)κ(xi,x)+b
仅与支持向量(偏差超出ϵ\epsilonϵ的样本)有关,保持稀疏性。

六、核方法(扩展与推广)

核函数的思想可推广至其他线性模型,形成“核化”模型,通过高维映射提升非线性拟合能力。

(一)表示定理

任何基于核函数的学习模型,其最优解均可表示为训练样本核函数的线性组合,即h∗(x)=∑i=1mαiκ(xi,x)+bh^*(x) = \sum_{i=1}^m \alpha_i \kappa(x_i, x) + bh(x)=i=1mαiκ(xi,x)+b。这为核方法的通用性提供了理论基础。

(二)常见核化模型
  • 核LDA:将样本映射到高维空间后做线性判别分析,提升分类效果;
  • 核PCA:在高维空间进行主成分分析,更好地提取非线性特征。

七、实用工具与软件包

成熟的SVM工具包包括LIBSVM、SVMlight等,支持分类、回归及多种核函数,广泛应用于实际任务(如文档分类、图像识别)。

上一章:机器学习05——多分类学习与类别不平衡
下一章:机器学习07——贝叶斯分类器
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/921812.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/921812.shtml
英文地址,请注明出处:http://en.pswp.cn/news/921812.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI集群全链路监控:从GPU微架构指标到业务Metric关联

点击 “AladdinEdu&#xff0c;同学们用得起的【H卡】算力平台”&#xff0c;H卡级别算力&#xff0c;80G大显存&#xff0c;按量计费&#xff0c;灵活弹性&#xff0c;顶级配置&#xff0c;学生更享专属优惠。 引言&#xff1a;AI算力时代的监控挑战 随着深度学习模型规模的指…

K8s Ingress Annotations参数使用指南

Kubernetes Ingress Annotations 是与特定 Ingress 控制器&#xff08;如 Nginx、Traefik、HAProxy 等&#xff09;配合使用&#xff0c;用于扩展和定制 Ingress 资源行为的关键配置项。它们通常以键值对的形式添加在 Ingress 资源的 metadata部分。Ingress Annotations参数速查…

CodeBuddy Code深度实战:从零构建智能电商推荐系统的完整开发历程

项目背景与挑战作为一名有着多年全栈开发经验的技术人员&#xff0c;我最近接手了一个具有挑战性的项目&#xff1a;为某中型服装电商平台开发一套智能商品推荐系统。该系统需要在2个月内完成&#xff0c;包含以下核心功能&#xff1a;前端&#xff1a;React TypeScript构建的…

Day 19: 算法基础与面试理论精通 - 从思想理解到策略掌握的完整体系

Day 19: 算法基础与面试理论精通 - 从思想理解到策略掌握的完整体系 🎯 课程概述 核心目标:深度理解算法设计思想和核心原理,掌握面试高频算法概念,建立完整的算法知识体系 学习重点: ✅ 核心数据结构的本质理解和应用场景分析 ✅ 经典算法设计模式的思想精髓和解题策…

AI与AR融合:重塑石化与能源巡检的未来

在石化企业和新能源电站的巡检工作中&#xff0c;传统模式正被一场技术革命所颠覆。AI与AR&#xff08; www.teamhelper.cn &#xff09;的深度融合&#xff0c;不仅提升了巡检效率&#xff0c;更将巡检工作从被动响应转变为预测预防&#xff0c;开启了智能运维的新篇章。一、透…

滴滴二面(准备二)

手写防抖函数并清晰阐述其价值&#xff0c;确实是前端面试的常见考点。下面我将为你直接呈现防抖函数的代码&#xff0c;并重点结合滴滴的业务场景进行解释&#xff0c;帮助你向面试官展示思考深度。 这是防抖函数的一个基本实现&#xff0c;附带注释以便理解&#xff1a; func…

Kubernetes(四):Service

目录 一、定义Service 1.1 typeClusterIP 1.2 typeNodePort 1.3 typeLoadBalancer 1.4 typeExternalName 1.5 无标签选择器的Service 1.6 Headless Service 二、Kubernetes的服务发现 2.1 环境变量方式 2.2 DNS方式 Kubernetes 中 Service 是 将运行在一个或一组 Pod 上的应用…

在 Python 中实现观察者模式的具体步骤是什么?

在 Python 中实现观察者模式可以遵循以下具体步骤&#xff0c;这些步骤清晰地划分了角色和交互流程&#xff1a; 步骤 1&#xff1a;定义主题&#xff08;Subject&#xff09;基类 主题是被观察的对象&#xff0c;负责管理观察者和发送通知。需实现以下核心方法&#xff1a; 存…

分布式方案 一 分布式锁的四大实现方式

Java分布式锁实现方式详解 什么是分布式锁 基于数据库的分布式锁基于Redis的分布式锁基于ZooKeeper的分布式锁基于Etcd的分布式锁 各种实现方式对比最佳实践建议多节点/线程调用结果展示 基于数据库的分布式锁 - 多线程测试基于Redis的分布式锁 - 多节点测试基于ZooKeeper的分…

基于Room+RESTful的双权限Android开机时间监控方案

概述 以下是使用Kotlin实现的商业级Android开机时间记录功能&#xff0c;包含现代Android开发最佳实践。 系统架构 组件设计 // BootReceiver - 接收开机广播 class BootReceiver : BroadcastReceiver() {override fun onReceive(context: Context, intent: Intent?) {if (int…

水库大坝安全监测系统的作用

水库大坝作为重要的水利基础设施&#xff0c;承担着防洪、供水、发电、灌溉等多重功能&#xff0c;其安全性直接关系到人民生命财产安全和社会经济发展。然而&#xff0c;由于自然环境变化、材料老化、荷载作用以及人为因素的影响&#xff0c;大坝在长期运行过程中可能出现裂缝…

《Kubernetes 构建 MySQL MGR 集群实战教程》

#### 一、前言 MySQL Group Replication (MGR) 是 MySQL 官方提供的高可用集群方案&#xff0c;基于 Paxos 协议实现多节点数据强一致性。本教程将指导如何在 Kubernetes 上部署 MySQL MGR 集群&#xff0c;适用于生产级高可用场景。---#### 二、环境准备 1. **Kubernetes 集…

影视APP源码 SK影视 安卓+苹果双端APP 反编译详细视频教程+源码

内容目录一、详细介绍二、效果展示1.部分代码2.效果图展示三、学习资料下载一、详细介绍 影视APP源码 SK影视 安卓苹果双端APP 反编译详细视频教程源码 自带对接优效SDK广告&#xff08;已失效&#xff09;。域名和IP都可以搭建。 自带一起看和短剧页面功能&#xff0c;三种…

pyqt+python之二进制生肖占卜

目录 一、引言 二、GUI界面设计 1.效果演示 2.相关提示 3.界面设计.py 三、主要程序详解 1.导入相关模块 2.初始化设置 3.组内判断 4.猜测过程 四、总程序代码 一、引言 在数字时代&#xff0c;传统文化与编程语言的碰撞总能迸发奇妙火花。本项目以PyQtPython为技术…

人工智能-python-深度学习-经典网络模型-LeNets5

文章目录LeNet-5&#xff08;详解&#xff09;—— 从原理到 PyTorch 实现&#xff08;含训练示例&#xff09;简介LeNet-5 的核心思想LeNet-5 逐层结构详解逐层计算举例&#x1f4cc; 输入层&#x1f4cc; C1 卷积层&#x1f4cc; S2 池化层&#x1f4cc; C3 卷积层&#x1f4…

机器视觉的手机柔性屏贴合应用

在智能手机制造领域&#xff0c;柔性屏逐渐成为智能手机的主流选择&#xff0c;柔性屏因其轻便、易于弯曲的特性&#xff0c;已成为现代电子设备的重要组成部分&#xff0c;但同时也带来了前所未有的制造挑战。柔性屏与传统刚性玻璃屏有本质区别&#xff0c;它容易形变&#xf…

贪心算法应用:数字孪生同步问题详解

Java中的贪心算法应用&#xff1a;数字孪生同步问题详解 贪心算法是一种在每一步选择中都采取在当前状态下最好或最优&#xff08;即最有利&#xff09;的选择&#xff0c;从而希望导致结果是全局最好或最优的算法。下面我将全面详细地讲解贪心算法在数字孪生同步问题中的应用。…

UOS20系统安装与 SSH/XRDP 远程访问功能配置指南

UOS20系统安装与 SSH/XRDP 远程访问功能配置指南 一、UOS 20 系统安装​ ​1. 下载系统镜像​ 访问统信官网下载 UOS 20 专业版镜像&#xff08;推荐适配当前硬件的版本&#xff09;&#xff1a; https://www.chinauos.com/resource/download-professional 2. 系统安装与硬件配…

【Python】S1 基础篇 P5 字典模块指南

目录字典的本质与底层实现基础语法结构使用字典访问字典中的值添加键值对修改字典中的值删除键值对使用 get() 来访问值遍历字典遍历所有键值对遍历字典中的所有键遍历字典中的所有值嵌套字典列表在字典中存储列表字典&#xff08;Dictionary&#xff09;是Python中灵活且强大的…

计算机视觉之多模板匹配

简介 计算机视觉第一课opencv&#xff08;四&#xff09;保姆级教学 之前说过模糊匹配只是对于单个目标进行匹配&#xff0c;今天我们就来学习一下如何对多个目标进行匹配 一、多目标匹配 对于这个图片我们要匹配下面那个箭头&#xff0c;我们可以发现图中是有两个位置相同的…