上一章:机器学习04——决策树
下一章:机器学习06——支持向量机
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

文章目录

      • 一、多分类学习
        • (一)一对一(One vs. One, OvO)
        • (二)一对其余(One vs. Rest, OvR)
        • (三)两种策略的比较
        • (四)多对多(Many vs. Many, MvM)
      • 二、类别不平衡问题
        • (一)再缩放(Rescaling)
        • (二)采样方法
        • (三)阈值移动(Threshold-moving)
        • (四)方法选择

一、多分类学习

多分类学习旨在解决类别数大于2的分类问题,核心思路是通过任务拆分将多分类问题转化为多个二分类问题,再集成二分类器的结果得到最终分类。常见的拆分策略包括一对一、一对其余和多对多。
在这里插入图片描述

(一)一对一(One vs. One, OvO)
  • 任务拆分:将N个类别两两配对,生成N(N−1)/2N(N-1)/2N(N1)/2个二分类任务(如类别C1C_1C1C2C_2C2C1C_1C1C3C_3C3等),每个任务仅使用对应两个类别的样本训练分类器,最终得到N(N−1)/2N(N-1)/2N(N1)/2个分类器。
  • 测试阶段:将新样本输入所有分类器,每个分类器会判定样本属于两个类别中的一个,通过“投票”机制确定最终类别——被预测次数最多的类别即为结果。
  • 特点:每个分类器的训练仅使用两个类的样本,训练时间较短,但需训练和存储的分类器数量多(如10个类别需45个分类器),存储和测试开销较大。
(二)一对其余(One vs. Rest, OvR)
  • 任务拆分:为每个类别构建一个二分类任务,将该类别视为“正例”,其余所有类别视为“反例”,共生成N个二分类任务,训练得到N个分类器。
  • 测试阶段:将新样本输入所有分类器,每个分类器会输出样本属于其对应“正例”类别的置信度,选择置信度最大的类别作为最终结果。
  • 特点:分类器数量少(N个),存储和测试开销小,但每个分类器的训练需使用全部样本(正例少、反例多),训练时间较长,且可能因类别不平衡影响单个分类器性能。
(三)两种策略的比较
  • 性能:在多数情况下,OvO和OvR的预测性能相近,具体取决于数据分布。
  • 效率:OvO的训练时间更短(单个分类器样本少),但存储和测试开销更大;OvR则相反,适合类别数较多的场景。
(四)多对多(Many vs. Many, MvM)
  • 核心思想:通过预设的“类别子集”划分任务,每个任务将一部分类别作为正例,另一部分作为反例(如利用纠错输出码机制,为每个类别分配唯一的二进制编码,通过多个二分类器学习编码的每一位)。
  • 特点:能更好地利用类别间的关联信息,抗噪声能力较强,但任务设计较复杂,实际应用中不如OvO和OvR广泛。

二、类别不平衡问题

类别不平衡指训练集中不同类别的样本数量相差悬殊(如正例仅占10%,反例占90%),可能导致分类器偏向多数类,忽视少数类。常见解决方法包括再缩放、采样和阈值移动。

(一)再缩放(Rescaling)
  • 原理:基于贝叶斯决策理论,调整分类阈值。对于二分类问题,若正例先验概率为p+p_+p+、反例为p−p_-p,最优决策应满足y1−y>p−p+\frac{y}{1-y} > \frac{p_-}{p_+}1yy>p+p(其中yyy为样本属于正例的预测概率)。当训练集类别不平衡时(如正例样本数m+m^+m+、反例m−m^-m),可用m−m+\frac{m^-}{m^+}m+m近似p−p+\frac{p_-}{p_+}p+p,调整决策阈值。
(二)采样方法
  1. 欠采样(Undersampling):通过移除部分多数类(反例)样本,使正反例数量接近。例如EasyEnsemble算法,多次随机采样多数类样本与少数类组成训练集,训练多个分类器后集成,避免因单次采样丢失重要信息。
  2. 过采样(Oversampling):通过增加少数类(正例)样本,平衡类别比例。例如SMOTE算法,基于少数类样本的近邻生成“虚拟样本”,避免简单复制样本导致的过拟合。
(三)阈值移动(Threshold-moving)
  • 原理:不改变训练数据,直接调整分类器的决策阈值。例如,当正例样本少而反例多时,降低正例的判定阈值(如将默认的0.5调整为0.3),使分类器更“容易”将样本判定为正例,从而平衡对少数类的识别率。
(四)方法选择
  • 小规模数据集优先考虑过采样(避免信息丢失);
  • 大规模数据集可采用欠采样(减少计算开销);
  • 阈值移动常与采样结合使用,进一步优化分类器对少数类的敏感性。

上一章:机器学习04——决策树
下一章:机器学习06——支持向量机
机器学习实战项目:【从 0 到 1 落地】机器学习实操项目目录:覆盖入门到进阶,大学生就业 / 竞赛必备

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/98903.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/98903.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/98903.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025.9.11总结

阅读《拿铁因素》有感昨天看完《拿铁因素》,这本书让我明白,如果不去主动去管理自己的财务,解决自己从前的财务问题,我很难过上自己想要的生活。今天就所读的内容,探究如何将这本书的内容运用到自己的一个日常生活中。…

Android,Jetpack Compose,坦克大战游戏案例Demo

代码如下(这只是个简单案例而已): package com.example.myapplicationimport android.os.Bundle import androidx.activity.ComponentActivity import androidx.activity.compose.setContent import androidx.compose.foundation.Canvas impo…

zookeeper是啥

ZooKeeper是一个开源的分布式协调服务,主要用于解决分布式系统中的数据一致性、状态同步和协作问题‌。它通过提供高可用、强一致性的服务,成为分布式系统的“指挥中心”‌。以下是其核心功能和应用场景:核心功能 分布式同步‌ 通过原子广播协…

【开题答辩全过程】以 基于Android的智慧旅游APP开发为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

如何选择?SEO 与 GEO 的 5 个核心分野

在 30 秒内,以下是您需要了解的有关 SEO 和 GEO 之间差异的信息: SEO(搜索引擎优化):让您的网站出现在 Google 搜索中。目标:吸引用户点击您的链接。GEO(生成引擎优化):…

基于MATLAB的光学CCD全息成像仿真程序实现

基于MATLAB的光学CCD全息成像仿真程序实现一、流程 #mermaid-svg-g3dkhZSC3Go4a2kH {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-g3dkhZSC3Go4a2kH .error-icon{fill:#552222;}#mermaid-svg-g3dkhZSC3Go4a2kH .er…

Java大厂面试实录:产业互联网大数据与AI服务场景下的微服务与智能搜索(含详细解读)

Java大厂面试实录:产业互联网大数据与AI服务场景下的微服务与智能搜索(含详细解读) 场景开场 🏭🦄 午后阳光正好,王老登背着“Java一把梭”的背包,精神抖擞地走进了产业互联网大数据与AI服务大厂…

Win_Server远程桌面(RDP)服务调用GPU并提上传输帧率和USB设备重定向

说明:Windows远程桌面服务( RDP ),RDP服务是可以无显卡运行的,显示远程桌面的时候并不调用显卡,可以做一些基本的管理操作,为提升RDP的性能,可以开启显卡加速( OpenGL&am…

Docker(⑤Kali Linux-HexStrike AI安装)

卸载 WSL 里的 Ubuntuwsl --unregister Ubuntu查看当前已安装的发行版wsl --list --verbose下载kali-linuxwsl --install -d kali-linuxKali 服务端安装sudo apt update && sudo apt upgrade -y sudo apt install python3 python3-venv python3-pip git -y克隆源码 &am…

查找算法和递推算法

查找算法题目 1:找班级里的 “小明星”题目描述:班级有 10 个同学的编号(1 - 10),输入一个编号,判断是否是 “小明星”(假设编号为 5 的是小明星),是就输出 “找到小明星…

2025 年PT展前瞻:人工智能+如何走进普通人的生活?

导读:2025年,人工智能正在加速融入日常生活,提升着每一个普通人的幸福感与获得感。清晨,智能手环在你最浅的睡眠阶段轻柔震动,用最科学的方式将你唤醒;通勤路上,智能网联汽车早已规划好躲避拥堵…

1-机器学习与大模型开发数学教程-第0章 预备知识-0-1 集合与逻辑基础(集合运算、命题逻辑、量词)

在正式进入机器学习与大模型的数学核心之前,我们需要先打好“语言”和“逻辑”的基础。 这一章会从 集合与逻辑 入手,它们就像是编程中的语法规则: 集合告诉我们“对象属于不属于某个范围”;逻辑告诉我们“命题对不对、能不能推出…

字节 Trae vs 腾讯 CodeBuddy vs 阿里 Qoder:三大 AI-IDE 集成 OneCode 深度对比与体验测评

一、对比背景:AI-IDE 与低代码融合的行业必然性 在低代码开发进入 “AI 赋能期” 的 2025 年,AI 驱动的集成开发环境(AI-IDE)已成为低代码平台效率提升的核心载体。全球 AI-IDE 市场规模突破 50 亿美元,年增长率超 70…

DeerFlow 与 MCP 区别深度解析

目录 引言 一、DeerFlow 与 MCP 的详细概念说明 1. DeerFlow:面向研究自动化的多智能体应用框架 2. MCP:连接 AI 模型与外部系统的标准化通信协议 二、核心定位:应用框架与通信协议的本质 1. 角色不同 2. 技术架构 三、功能特性&…

视觉对象类型

矩形类型 对于最基本的视觉效果,Qt Quick 提供了一种绘制矩形的类型。这些矩形可以用颜色或垂直渐变着色。该类型还可以在矩形上绘制边框。 若要绘制矩形以外的自定义形状,请参阅类型或使用该类型显示预渲染图像。 import QtQuickItem {width: 320h

排序---选择排序(Selection Sort)

一、选择排序的基本概念 选择排序(Selection Sort)是一种简单直观的排序算法,其核心思想是每次从待排序元素中找到最值(最小值或最大值),将其放到已排序序列的末尾,重复此过程直到所有元素完成排…

前端菜单权限方案

方案一:前端全量配置路由表 后端返回权限码思路所有可能的路由都在前端 router 中静态配置好(就像你现在这样)。登录后,后端返回当前用户的菜单权限(通常是一个权限 code 列表)。前端根据权限码过滤掉无权…

spring项目部署后为什么会生成 logback-spring.xml文件

以下内容为豆包生成,此处仅做记录在 Spring 项目(尤其是 Spring Boot 项目)部署后生成 logback-spring.xml 文件,通常有以下几种原因:1. 项目打包时主动包含了该文件logback-spring.xml 是 Logback 日志框架在 Spring …

如何解决pip安装报错ModuleNotFoundError: No module named ‘vaex’问题

【Python系列Bug修复PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘vaex’问题 摘要 在Python开发过程中,使用pip install时遇到错误是非常常见的情况。特别是在使用PyCharm等集成开发环境(IDE&#xff0…

实习总结——关于联调解决的因CRC校验导致协议交互失败的调试经验总结

1.场景还原:在我开发USB PD测试模块时,发现待测主板始终不回复Request消息,导致我的测试失败;此时我的任务就是快速定位这个协议交互失败的原因,无论是软件、硬件还是协同。2.大致的调试步骤:1.首先使用了逻…