目录

1. 未标记样本

2. 生成式方法  高斯混合+EM

3. 半监督SVM  存在未标记样本的SVM变形

4. 图半监督学习 对图权值迭代矩阵计算

5. 基于分歧的方法 多视图协同训练

6. 半监督聚类 k-means的条件变形

6.1 Constrained k-means 利用“必连”与 “勿连”约束

6.2 Constrained Seed k-means 少量有标记的样本


在监督与无监督之间,少量标记样本的情况下,如何相比纯监督学习充分利用无标记样本的分布特征,相比无监督学习利用少量的已知信息?

对高斯混合分布、SVM、k-means进行一些修正和改进。

建模图论节点、边权迭代的思想;多视图协同训练、互相学习的思想。

1. 未标记样本

标记样本太少 用来训练不够; 还有很多未标记样本 全标记需要的成本太高

主动学习 active learning:每次挑对改善模型性能帮助大的样本 用少的专家查询 换取高性能

若不引用额外的专家知识可以吗?因为标记或未标记样本 都是由相同数据源 独立同分布采样

我们可以利用观察到的总样本分布

聚类假设:假设数据存在簇结构,同一个簇的样本属于同一个类别

流形假设:假设数据 分布在一个流形结构上,邻近的样本拥有相似的输出值

比如这里 带判别样本是在标记正负中间 无法判断;

但把他们放在样本群里面 发现左边那一大块更有可能是+ 这个带判别也更有可能是正

半监督学习:让学习器不依赖外界交互、 自动地利用未标记样本来提升学习性能

纯半监督学习:目标是预测样本外未观测到的数据

直推学习:目标是预测样本中 未标记数据

2. 生成式方法  高斯混合+EM

前置思想 周志华《机器学习导论》第9章 聚类中的高斯混合分布

样本由N个高斯分布加权组合而成

样本x属于第i个高斯分布的概率为

样本x对应后验概率最大的类别 j     条件概率 第i个高斯下的类别 j

 极大似然估计 有标记的为(x,y)概率 无标记的为x概率

隐变量估计 EM算法 模型推隐变量-隐变量更新模型 重复至收敛

隐变量为 未标记样本 属于类别i高斯分布的概率

模型参数有:把未标记样本 依概率加权算作类i 更新类i的均值 方差 权重

3. 半监督SVM  存在未标记样本的SVM变形

TSVM 二分类:所有m个未标记样本(每个样本可能+ - 共2^m个可能里)

对于每一种可能 都SVM一下 选所有可能里间隔最大的那个划分超平面

周志华《机器学习导论》第5章 支持向量机SVM 前情回顾

这里的区别:之前有标记的 判别错误的惩罚项系数 比无标记的惩罚要高(前l有标记 后m无标记)

但这样2^m个超平面 计算复杂度还是太高了 考虑局部搜索迭代近似

先根据标记样本算出超平面 未标记样本根据超平面打上初始标记 Cu权重远小于Cl

1.把两个一正一负的 且出错可能性相对比较高(相加>2)的标签 进行正负对调 

2.把所有两两都检查一下后,重算SVM调高Cu权重

一直重复1 2调整 直到Cu权重接近Cl。

 

为防止+ - 类别不平衡,进行调整权重操作 按照正负项数反比例

 

4. 图半监督学习 对图权值迭代矩阵计算

建模成图 每个样本为点 边值为两样本的相似度大小(可用高斯函数)

已标记样本为染色点 图半监督问题相当于扩展染色/传播 问题 

 

要学习一个函数f 可以把样本向量x 映射到一个值  把f前l和后u拆解  fl已知 需要优化 fu

目标函数为 最小化能量函数 W大的需要让他们的f接近

用一个 P=D逆W 可用Puu Pul 简化式子

 

W可以推 D和P 求偏导得 fu和 fl的关系

如果是多分类的标记传播:f就不是映射到值 而是F 映射到一个向量

每个样本 都会映射到一个长度为 |y| 的向量

最后的值为 向量最大数的位置(评估一下和每个类的相似度 分为相似度最大的那个)

初始的F是 前l样本对应的那类位置为1 矩阵其余位置均为0      一直迭代到F*收敛

S为W除以度数 归一化(防止高度数节点过度影响结果 保证特征值在[-1,1]内 使迭代过程收敛)

α的系数为迭代  (1-α)为保持初始Y的特征

  令F(t+1)=F(t)

5. 基于分歧的方法 多视图协同训练

多视图数据:同一个数据对象不同方面的属性(如视觉、听觉上的)

协同训练:利用多视图的 相容性(判别答案的类别空间y相同)和互补性

假设数据拥有两个充分(每个视图都包含足以产生最优学习器的信息)且

条件独立(在给定类别标记条件下两个视图独立)视图: 

每个视图的学习器,把自己最有把握的未标记样本打上标签给其他学习器学习(互相学习

我知道你的信息 -> 我学到新东西告诉你 -> 你根据我的新信息 学到新东西告诉我

为防止所有样本都被大量改变:构建一个缓冲池 每次从缓冲池里找最有把握的

每次循环 对每个视图分别:1.根据已有数据训练分类器

2.在缓冲池里找 p个最有把握的正类和 n个最有把握的负类 打标记后 移除缓冲池

3.每个视图进行完毕后 补充缓冲池 从样本池随机抽一定样本移到缓冲池   维持每次循环前缓冲池中样本数目一定

6. 半监督聚类 k-means的条件变形

聚类本来无监督 但是有一些额外的信息的话 可以帮助聚类效果更好(带限制的k-means)

6.1 Constrained k-means 利用“必连”与 “勿连”约束

还是k个均值点μ 代表k个簇

每个样本依次塞到最近的 不违背“必连勿连约束”的簇;   分类好再取新的均值μ; 上两步迭代

6.2 Constrained Seed k-means 少量有标记的样本

用带标记的样本 初始化的k个μ

并在后续的迭代过程中 不改变这些样本;无标记的样本类似传统k-means

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/90116.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/90116.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/90116.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

消息推送功能设计指南:精准触达与用户体验的平衡之道

消息推送功能设计指南:精准触达与用户体验的平衡之道消息推送是平台与用户保持连接的重要桥梁,既能及时传递重要资讯,又能唤醒沉睡用户、提升活跃度。然而,推送功能若设计不当,可能变成 “信息骚扰”,导致用…

CanOpen--SDO 数据帧分析

CanOpen--SDO 数据帧分析1 介绍1.1 概述1.2 主站与从站2 数据帧详细分析2.1 主站发送的请求帧 (Client → Server)2.2 从站响应的确认帧 (Server → Client)成功数据帧内容示例错误帧2.3 命令字2.4 小端格式:低字节在前3 其他示例60FF index 发送 数值 1000 数据帧分…

Day20-二叉树基础知识

二叉树(Binary Tree)是一种每个节点最多有两个子节点的树形数据结构,这两个子节点分别称为左子节点和右子节点。二叉树是计算机科学中最基础、最常用的树结构之一,广泛应用于搜索、排序、表达式解析等领域! 核心特点 …

示波器探头接口类型与PINTECH品致探头选型指南

一、示波器探头接口类型及技术特点1. BNC接口:通用型主流标准- 优势:75%以上示波器标配接口,具备阻抗匹配灵活(50Ω/1MΩ)、插拔稳定、抗干扰性强等特点。 - 应用场景:适用于大多数示波器(如Le…

Spring之【Bean工厂后置处理器】

目录 BeanFactoryPostProcessor BeanDefinitionRegistryPostProcessor 使用一下Bean工厂后置处理器 定义包扫描范围 定义一个组件Bean 定义一个普通的类 自定义一个组件类实现Bean工厂后处理器 测试类 BeanFactoryPostProcessor 该接口是Spring提供的扩展点之一是一个…

【C++】第十八节—一文万字详解 | map和set的使用

嗨,我是云边有个稻草人,与你分享C领域专业知识(*^▽^*) 《C》本篇文章所属专栏—持续更新中—欢迎订阅— 目录 一、序列式容器和关联式容器 二、set系列的使用 2.1 set和multiset参考⽂档 2.2 set类的介绍 2.3 set的构造和迭代器 2.4 set的增删查…

Java 大视界 -- Java 大数据在智能交通自动驾驶车辆与周边环境信息融合与决策中的应用(357)

Java 大视界 -- Java 大数据在智能交通自动驾驶车辆与周边环境信息融合与决策中的应用(357)引言:正文:一、Java 构建的环境信息融合架构1.1 多传感器数据实时关联1.2 动态障碍物轨迹预测二、Java 驱动的决策系统设计2.1 紧急决策与…

单细胞转录组学+空间转录组的整合及思路

一、概念 首先还是老规矩,处理一下概念问题,好将之后的问题进行分类和区分 单细胞转录组:指在单个细胞水平上对转录组(即细胞内所有转录出来的 RNA,主要是 mRNA)进行研究的学科或技术方向,核心…

用Python实现神经网络(五)

这一节告诉你如何用TensorFlow实现全连接网络。安装 DeepChem这一节,你将使用DeepChem 机器学习工具链进行实验在网上可以找到 DeepChem详细安装指导。Tox21 Dataset作为我们的建模案例研究,我们使用化学数据库。毒理学家很感兴趣于用机器学习来预测化学…

ReasonFlux:基于思维模板与分层强化学习的高效推理新范式

“以结构化知识压缩搜索空间,让轻量模型实现超越尺度的推理性能” ReasonFlux 是由普林斯顿大学与北京大学联合研发的创新框架(2025年2月发布),通过 结构化思维模板 与 分层强化学习,显著提升大语言模型在复杂推理任务…

PHP与Web页面交互:从基础表单到AJAX实战

文章目录 PHP与Web页面交互:从基础到高级实践 1. 引言 2. 基础表单处理 2.1 HTML表单与PHP交互基础 2.2 GET与POST方法比较 3. 高级交互技术 3.1 AJAX与PHP交互 3.2 使用Fetch API进行现代AJAX交互 4. 文件上传处理 5. 安全性考量 5.1 常见安全威胁与防护 5.2 数据验证与过滤 …

OpenCV基本的图像处理

参考资料: 参考视频 视频参考资料:链接: https://pan.baidu.com/s/1_DJTOerxpu5_dSfd4ZNlAA 提取码: 8v2n 相关代码 概述: 因为本人是用于机器视觉的图像处理,所以只记录了OpenCV的形态学操作和图像平滑处理两部分 形态学操作:…

Git 与 GitHub 学习笔记

本文是一份全面的 Git 入门指南,涵盖了从环境配置、创建仓库到日常分支管理和与 GitHub 同步的全部核心操作。 Part 1: 初始配置 (一次性搞定) 在开始使用 Git 之前,需要先配置好你的电脑环境。(由于网络的原因,直接使用https的方式拉取仓库大概率是失败的,故使用ssh的方…

文件系统-文件存储空间管理

文件存储空间管理的核心是空闲块的组织、分配与回收,确保高效利用磁盘空间并快速响应文件操作(创建、删除、扩展)。以下是三种主流方法:1. 空闲表法(连续分配)原理:类似内存动态分区&#xff0c…

python爬虫实战-小案例:爬取苏宁易购的好评

一、项目背景与价值1 为什么爬取商品好评? 消费者洞察:分析用户真实反馈,了解产品优缺点 市场研究:监测竞品评价趋势,优化产品策略二.实现代码from selenium import webdriver from selenium.webdriver.edge.options i…

Spring Boot环境搭建与核心原理深度解析

一、开发环境准备 1.1 工具链选择 JDK版本:推荐使用JDK 17(LTS版本),与Spring Boot 3.2.5完全兼容,支持虚拟线程等JDK 21特性可通过配置启用构建工具:Maven 3.8.6(配置阿里云镜像加速依赖下载…

Java自动拆箱机制

在黑马点评项目中,提到了一个细节,就是Java的自动拆箱机制,本文来简单了解一下。Java 的​​自动拆箱机制(Unboxing)​​是一种编译器层面的语法糖,用于简化​​包装类对象​​(如 Integer、Boo…

哈希算法(Hash Algorithm)

哈希算法(Hash Algorithm)是一种将任意长度的数据映射为固定长度的哈希值(Hash Value)的算法,广泛应用于密码学、数据完整性验证、数据结构(如哈希表)和数字签名等领域。🧠 一、哈希…

黑马点评使用Apifox进行接口测试(以导入更新店铺为例、详细图解)

目录 一、前言 二、手动完成接口测试所需配置 三、进行接口测试 一、前言 在学习黑马点评P39实现商铺缓存与数据库的双写一致课程中,老师使用postman进行了更新店铺的接口测试。由于课程是22年的,按照我从24年JavaWebAI课程所学习使用的Apifox内部其实…

Ubuntu 虚拟机配置 与Windows互传文件

在VMware中为Ubuntu虚拟机设置共享文件夹 设置共享文件夹可以传递大量文件 在VMware的设置中打开共享文件夹功能,并设置共享文件夹的目录。 点击添加后,选择一个电脑上的文件夹,这个文件夹最好是新建的空的。 完成后在“文件夹”列表中就…