文章目录

  • 1 背景
  • 2 模块
    • 2.1 部分交叉熵损失
    • 2.2 弱标签(线/点)
    • 2.3 Gated CRF Loss
  • 3 效果
    • 3.1 总体效果
    • 3.2 消融实验
  • 4 总结
  • 参考文献

1 背景

全监督的语义分割需要对全图进行完全而精确的标注。当需要标注的目标在图像中较多,又或形状不规则,又或边界不清晰,人工进行标注的成本就极高,甚至无法进行标注。比如下图1-1所示,需要分割图片中的"脏污",这用全监督的方式训练该如何标注呢?图1-1中,我们可以确定一些区域必然是脏污,一些区域必然不是脏污,至于比较模糊的区域,使用弱监督的方式进行标注的话,就可以不标注,让模型自行判断。对于确定的区域,也不需要完全的标注,只需要标注部分即可。也就是说,对于图1-1,使用弱监督模型进行训练时,一种标注方式就是在确定是脏污的几个区域画几条线,在确定是背景的区域也画几条线就可以了。
弱监督的标注形式可以是点、线、多边形,只要不是讲所有目标完整地进行标注,均可称为弱监督。
脏污样本示意图

图1-1 脏污样本示意图

本文要介绍的这篇文章讲了一种弱监督的损失,可以适用于任意的语义分割模型,对预测部分不会产生任何额外的代价。
所有的弱监督损失其实都在回答一个问题:如何利用未标注区域?
不要被这篇文章的题目吓到,又是Gated了,又是CRF,这些词我们都可以不管。我们只需要知道这篇文章把"如何利用未标注区域"分成了两个问题:
(1)哪些像素是无效区域,不加入损失的计算,即Gated
(2)如何描述有标注的像素和无标注像素之间的相似度,用于监督的引导,即CRF

2 模块

2.1 部分交叉熵损失

训练用于语义分割任务的神经网络 FFF 需要成对的图像 xxx 及其带标注的对应图像 yyy ,传递 CCC 类中的逐像素类分配。用 NNN 表示图像中的像素总数,预测结果 y^=F(x)\hat{y}=F(x)y^=F(x) 中类别 iii 的概率为 y^(i)\hat{y}(i)y^(i) 。多类分类问题的传统损失是交叉熵损失,当标签 yyy 作为概率分布给出时(软标签),其形式为

LCE(y^i,yi)=−∑c=1Cyi(c)logy^i(c)(2-1)L_{CE} (\hat{y}_i, y_i) = -\sum_{c=1}^C y_i(c) log\hat{y}_i(c) \tag{2-1} LCE(y^i,yi)=c=1Cyi(c)logy^i(c)(2-1)

或当标签 yyy 具有类标签时(硬标签)

LCE(y^i,yi)=−logy^i(yi)(2-2)L_{CE} (\hat{y}_i, y_i) = -log\hat{y}_i(y_i) \tag{2-2} LCE(y^i,yi)=logy^i(yi)(2-2)

在全监督中,训练图像的几乎所有像素都被标注,形成与 yyy 大小相同的标注像素 mi∈{0,1}m_i \in \{0, 1\}mi{0,1} 的密集图。在弱监督中,仅对训练图像的几个像素进行标注,形成标注像素 mim_imi 的部分图,其稀疏性取决于弱标注的类型(例如线、点)。由于未标注的像素不向学习过程提供任何信息,因此在用于通过反向传播计算梯度的损失函数中不考虑它们,即

LCE(y^,y)=∑i=1NmiLCE(y^i,yi)/∑i=1Nmi(2-3)L_{CE} (\hat{y}, y) = \sum_{i=1}^N m_i L_{CE}(\hat{y}_i, y_i) / \sum_{i=1}^N m_i \tag{2-3} LCE(y^,y)=i=1NmiLCE(y^i,yi)/i=1Nmi(2-3)

由于标注像素 mim_imi的部分映射,弱监督语义分割的交叉熵损失通常称为部分交叉熵(pCE)。

2.2 弱标签(线/点)

典型的弱监督是由标注更少像素同时获得更多样本的动机驱动的。绘制多边形、涂鸦或边界框已被证明可以在标注时间和分割性能之间产生良好的折衷。与边界框相比,点击和涂鸦具有一些有价值的资产:
1)虽然稀疏,但标注的像素更加准确和可靠;
2)标注过程更加高效;
3)对象类和东西类(例如“天空”、“道路”)可以以相同的方式处理。
图2-1展示了不同的标注方式以及对应训练出来的模型的效果。
不同标注方式及模型效果示意图

图2-1 不同标注方式及模型效果示意图

2.3 Gated CRF Loss

本文着手寻找一种方法来最小化弱监督和完全监督语义分割之间的性能差距。作者希望在不依赖任何常用先验的情况下实现这一目标,例如“objectness”;不扩大带标注的输入;没有在类似任务和数据集上预训练模型(即 COCO);无需使用复杂的训练程序或使用非常规最小化技术优化网络权重;并且不会生成“fake” proposals作为GT并进行多轮训练,这被证明会导致过拟合。
由于仅在弱标签上应用 pCE 通常无法提供接近语义边界的足够监督信号,因此在监督不可用的情况下,很自然地会出现更糟糕的预测。为了缓解这种情况,作者使用带标注的输入作为 pCE 监督信号的种子,并使用其他形式的正则化将其传播到周围像素。
首先定义类别 iiijjj 在位置 aaabbb 的能量方程

ψa,b(i,j)=μ(i,j)Kab(2-4)\psi_{a, b}(i, j) = \mu (i,j) K_{ab} \tag{2-4} ψa,b(i,j)=μ(i,j)Kab(2-4)

其中

Kab=∑p=1Pw(p)k(p)(fa(p),fb(p))(2-5)K_{ab} = \sum_{p=1}^{P} w^{(p)} k^{(p)}(f_a^{(p)}, f_b^{(p)}) \tag{2-5} Kab=p=1Pw(p)k(p)(fa(p),fb(p))(2-5)

ψa,b\psi_{a,b}ψa,b 表示成对的潜在可能性,μ\muμ 表示通用类兼容性矩阵,尺寸为RC×CR^{C \times C}RC×C ,紧接着的是PPP 个内核k(p)(⋅,⋅)k^{(p)}(\cdot, \cdot)k(p)(,) 用于一对有权重w(p)w^{(p)}w(p) 的位置。特征向量 fa(p)f_a^{(p)}fa(p) 是第 ppp 个内核独有的,并且不依赖于预测结果。实际情况下,通常由位置坐标或者输入的模态信息(RGB或者深度图)决定。作者使用的k(p)(⋅,⋅)k^{(p)}(\cdot, \cdot)k(p)(,)

k(p)(fa(p),fb(p))=exp{−12∣fa(p)−fb(p)σ(p)∣2}(2-6)k^{(p)} (f_a^{(p)}, f_b^{(p)}) = exp\{ -\frac{1}{2}| \frac{f_a^{(p)} - f_b^{(p)}}{\sigma^{(p)}} |^2 \} \tag{2-6} k(p)(fa(p),fb(p))=exp{21σ(p)fa(p)fb(p)2}(2-6)

并且

μ(i,j)={0,ifi=j1,otherwise(2-7)\mu (i,j) = \begin{cases} 0, \ if\ i = j\\ 1, \ otherwise \end{cases} \tag{2-7} μ(i,j)={0, if i=j1, otherwise(2-7)

观察定义的能量项,很明显,在特征相似的情况下,如果两个位置的类标签不同,则其值会更高,也就是损失会很高。这种相似性是由内核的组合、权重和带宽定义的,在RGBXY内核的情况下,这些相似性会转化为5D颜色邻近相似性(RGB为3D,XY为2D,合起来为5D),图2-2中显示了一些示例。
RGBXY内核下相似性可视化

图2-2 RGBXY内核下相似性可视化

现在,可以在位置 aaabbb 处写出预测 y^\hat{y}y^ 的能量,然后在“密集”设置中写出预测 y^\hat{y}y^ 的总能量,其中图像的每个像素都与其他每个像素相关

ψa,b(y^)=∑i,c∈[1,C]ψa,b(i,j)y^a(i)y^b(j)(2-8)\psi_{a, b}(\hat{y}) = \sum_{i, c \in [1, C]} \psi_{a, b}(i, j)\hat{y}_a(i)\hat{y}_b(j) \tag{2-8} ψa,b(y^)=i,c[1,C]ψa,b(i,j)y^a(i)y^b(j)(2-8)

观察式2-8也可以发现,惩罚的主要是y^a(i)\hat{y}_a(i)y^a(i)y^b(j)\hat{y}_b(j)y^b(j)置信度都很高,且特征相似类别不一致的情况。
总能量为

Ψ(y^)=∑a=1N∑b=1,b≠aNψa,b(y^)(2-9)\Psi(\hat{y}) = \sum^{N}_{a=1} \sum^{N}_{b=1, b \neq a} \psi_{a,b}(\hat{y}) \tag{2-9} Ψ(y^)=a=1Nb=1,b=aNψa,b(y^)(2-9)

Gated CRF Loss的改进包括:
(1) b≠ab \neq ab=a 条件指定总能量项不包括自标记能量。然而,除了自身位置 aaa 之外,还有其他像素位置可能需要从总能量中排除。排除点可以是标记为无效的像素,无论是 RGB 图像中曝光过度/曝光不足的区域,还是其他模式(例如深度图)中丢失的数据。 “待排除”区域也可以通过一些常用的计算操作生成,例如通过深度学习框架的数据增强(图像裁剪和旋转)生成的 RGB 图像的出界区域。为了排除这些像素影响其他像素,作者定义了一个与图像 xxx 大小相同的源图 msrcm^{src}msrc ,其中 masrc∈{0,1}m_a^{src}\in\{0, 1\}masrc{0,1},其中 1 表示可用于为任意像素提供成对能量的像素,否则为 0。

(2)所有位置 a∈[1,N]a \in [1, N]a[1,N] 的求和的假设条件是总能量是作为这样的累积而找到的。对于某些情况(包括弱监督分割)来说,这也是过度简单化。对于此任务,可能需要排除带标注的位置免受其他像素的影响,因为 pCE 损失在这些位置上提供了直接且更强的监督。简而言之,如果 pCE 正确分类了标注像素的标签,那么应用 CRF 能量项来“纠正”它们不会带来额外的好处。为了排除这些像素接收能量,作者定义了一个与图像 xxx 大小相同的目标图madstm_a^{dst}madst ,其中madst∈{0,1}m_a^{dst} \in \{0, 1\}madst{0,1} ,其中 1 表示可用于接收和累积成对能量的像素图像中的任何其他位置,否则为 0

(3)假设所有核都是高斯分布并且特征向量 k(p)k^{(p)}k(p) 包含位置坐标,对于任何固定位置 aaa ,联合标记 aaabbb 的成对能量将随着距 aaa 的距离而减小。具有长范围求和的 CRF 损失对结合 pCE 和 CRF 损失的深度神经网络的联合训练提出了巨大的计算挑战。作者认为,当与相当简单的一元项模型一起使用时,CRF 设置的“密集”属性对于捕获像素之间的远程关系至关重要。目前的语义分割模型本身可以有效地捕获全局上下文。因此,拥有密集的成对项可能不会带来额外的好处(即模型下采样后,本身就具备全局关联性)。更重要的是,这需要使用高维过滤技术来减轻过高的计算复杂性,这也使内核项的操作变得复杂。作者认为,在弱监督语义分割的背景下,bbb 的求和范围限制为局部邻域 Ω(a)\Omega(a)Ω(a) 是有益的,该局部邻域由可接受的信号损失和内核带宽 σ(p)\sigma^{(p)}σ(p) 的函数来表征。
为解决(1)(2)中的问题,重写式2-4来支持门控信息传播

ψa,b(i,j)=μ(i,j)GabKab(2-10)\psi_{a, b}(i, j) = \mu (i,j) G_{ab} K_{ab} \tag{2-10} ψa,b(i,j)=μ(i,j)GabKab(2-10)

完整的能量方程变为

Ψ(y^)=∑a=1N∑b∈Ωr(a),b≠aNψa,b(y^)(2-11)\Psi(\hat{y}) = \sum^{N}_{a=1} \sum^{N}_{b \in \Omega_r(a), b \neq a} \psi_{a,b}(\hat{y}) \tag{2-11} Ψ(y^)=a=1NbΩr(a),b=aNψa,b(y^)(2-11)

后一种表示可以使用标准张量运算有效地计算。由于损失函数直接嵌入到网络中,因此在训练期间局部影响会传播到图像的整个范围。
提出的Gated CRF Loss只是预测类别概率的总能量:

LGCRF(y^)=Ψ(y^)/∑i=1Nmidst(2-12)L_{GCRF}(\hat{y}) = \Psi(\hat{y}) / \sum_{i=1}^N m_i^{dst} \tag{2-12} LGCRF(y^)=Ψ(y^)/i=1Nmidst(2-12)

总损失为

L(y^)=LCE(y,y^)+λLGCRF(y^)(2-13)L(\hat{y}) = L_{CE}(y, \hat{y}) + \lambda L_{GCRF}(\hat{y}) \tag{2-13} L(y^)=LCE(y,y^)+λLGCRF(y^)(2-13)

3 效果

3.1 总体效果

使用Gated CRF损失的模型和其他模型的对比可见下表3-1。
Gated CRF损失的模型和其他模型的对比

表3-1 Gated CRF损失的模型和其他模型的对比

3.2 消融实验

(1)Source and destination masking
表3-2中GCRFsGCRF_sGCRFs表示使用了source masking,GCRFs,dGCRF_{s,d}GCRFs,d表示使用了source masking和destination masking。CS和VOC是不同的数据集,每个数据集不同的行表示不同的标注方式,点、线、完全标注。
表3-2表明source masking的效果最好,是必须要有的。进一步添加destination masking使Cityscapes数据集改善约 1%,但 Pascal VOC 恶化最多 0.20%。这可以通过两个数据集中弱标注的性质来解释。Cityscapes通常包含许多散布在图像周围的物体实例。这为 pCE 单独学习强类描述提供了足够的弱标注。因此,在这种情况下激活目标屏蔽是有意义的,因为它会抑制门控 CRF 丢失对更可靠的 pCE 的影响。然而,在 Pascal VOC 中,图像中通常只存在几个对象实例。因此,与 Cityscapes 相比,弱标注要少得多且稀疏,使得 pCE 的监督不太可靠。
Gated CRF损失的模型和其他模型的对比

表3-2 Gated CRF损失的模型和其他模型的对比

(2)增大标注粗度
表3-3表明,即使像许多现有方法那样将点监督的大小从 [1×1]px 增加到 [3×3]px 看似微不足道,也会产生与基线情况相差 3% mIoU 的模型,即仅 PCE。然而,即使仅使用 [1×1]px 监督,在相同设置中与 pCE 一起使用的门控 CRF 损失也成功地弥补了这一差距。此外,任意放大带标注的输入并不总是有益的,因为它暗示了有关对象最小尺寸的先验知识,而对象的最小尺寸在数据集之间差异很大。例如,作者观察到,在 CityScapes 上仅使用 pCE 并没有从 [1×1]px 提高到 [3×3]px,可能是因为放大背景中非常小的对象的标注会导致其他类过度填充。
增大标注粗度效果对比

表3-3 增大标注粗度效果对比

(3)局部邻域尺寸
σXY\sigma_{XY}σXY表示核函数的带宽,其值越大,越远的像素起的作用越小。
表3-4表明了增大 σXY\sigma_{XY}σXY 并不会持续提高验证集的效果,可见前面说明的局部损失对全局也有影响的推测是正确的。这暗示局部应用的损失即使对于很小的 σXY\sigma_{XY}σXY也会产生全局影响。
不同局部邻域尺寸效果对比

表3-4 不同局部邻域尺寸效果对比

图3-1说明了增大 σXY\sigma_{XY}σXY 对于细物体的结果更准,但是损失了边缘精度。
不同局部邻域尺寸效果对比

图3-1 不同局部邻域尺寸效果对比

(4)GatedCRF损失权重
表3-5展示了使用不同的门控 CRF 损失权重 λ\lambdaλ 和 3 个级别的监督对 Pascal VOC 的影响。选择的 λ=0.1\lambda=0.1λ=0.1 值给出了最佳的总体结果。然而,还观察到,至少对于选定的 λ 值范围,门控 CRF 损失的影响并没有显着减弱,这可能表明它不太容易出现损失平衡问题。
不同GatedCRF权重的效果对比

表3-5 不同GatedCRF权重的效果对比

4 总结

总的来说,GatedCRFLoss设计了一种范式。
使用者可以通过修改fapf_a^{p}fapfbpf_b^{p}fbp来用不同的方式描述两个像素之间的相似度。
使用者可以通过修改σXY\sigma_{XY}σXY来控制不同距离的像素带来的影响程度。
使用者可以通过修改GabG_{ab}Gab来控制哪些像素参与损失的计算。

参考文献

[1] Gated CRF Loss for Weakly Supervised Semantic Image Segmentation
[2] 代码gate_crf_loss.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/919362.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/919362.shtml
英文地址,请注明出处:http://en.pswp.cn/news/919362.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

零墨云A4mini打印机设置电脑通过局域网络进行打印

文档时间:2025年8月 1.演示环境 操作系统版本:Windows11 打印机版本:零墨云A4mini 这款打印机打印的方式有蓝牙、远程云和局域网,这里演示的是电脑通过局域网打印 通过电脑版局域网(这个局域网是网络可达)打印之前&#xff0c…

ESP8266 入门(第 3 部分):使用 Arduino IDE 对 ESP8266 进行编程并刷新其内存

使用 Arduino IDE 对 ESP8266 进行编程并刷新其内存 这是我们之前 ESP 教程的延续的第三个教程,其中我们将学习使用 Arduino IDE(不使用 Arduino)对 ESP8266 进行编程和烧录 ESP8266。在前面的教程中,我们介绍了 WiFi 收发器ESP8266简介以及将 AT 命令与 ESP8266 结合使用。…

如何成功初始化一个模块

一、如何保证成功初始化一个模块(以 UART 为例)要成功初始化一个模块,请遵循以下步骤:在图形化界面中,首先配置外设模块。紧接着,配置使用到的外设模块的引脚(这一点很重要,容易忘记…

Hive 存储管理测试用例设计指南

一、测试范围界定Hive 存储管理测试主要覆盖以下核心模块:内部表 / 外部表存储特性验证分区表 / 分桶表管理功能测试存储格式兼容性测试(TextFile/ORC/Parquet 等)数据加载与导出机制验证元数据与 HDFS 存储一致性校验异常场景与边界条件处理…

智芯微ZX6N60A—N沟道增强型功率MOSFET

主要特征: ID 6A Vdss 600V RDSON-typ (VGS10V) 1.4Ω特点: • 快速切换 • 低导通电阻 • 低门费 • 100%单脉冲雪崩能量测试应用范围: • 适配器和充电器的电源开关电路。芯片数据 • 外壳:模压塑料 …

latex|算法algorithm宏包和注意事项

LaTeX 中 algorithm 环境完整指南 在科研论文里,写清楚算法步骤通常需要用到 伪代码环境。最常见的选择有两个包: algorithm2e —— 功能最强大,适合期刊/学位论文algorithmicx algpseudocode —— 更灵活、可定制,常用于会议模板…

纯Qt结合ffmpeg实现本地摄像头采集/桌面采集/应用程序窗口采集/指定采集帧率和分辨率等

一、前言说明 ffmpeg的功能真的是包罗万象,除了基本的编解码,还有个专门的avdevice模块用来对本地设备的采集支持,最开始用到ffmpeg采集本地摄像头的缘由,还不是因为Qt不给力,Qt5开始有个qcamera类,但是只…

【论文笔记】Multi-Agent Based Character Simulation for Story Writing

论文信息 论文标题: Multi-Agent Based Character Simulation for Story Writing - In2Writing 2025 论文作者: Tian Yu, Ken Shi, Zixin Zhao, Gerald Penn 论文链接: https://aclanthology.org/2025.in2writing-1.9/ 论文领域:…

GaussianLSS

背景 BEV感知能够聚合多个传感器输入得到统一的空间表征,在3D感知、下游应用以及跨模态融合中发挥重要作用。现有的BEV感知分为2D反投影(LSS)以及3D投影(BEVFormer),其中3D投影依赖于3D体素的投影&#xff…

卫生许可证识别技术:通过OCR与NLP实现高效合规管理,提升审核准确性与效率

在食品安全、公共卫生管理日益重要的今天,卫生许可证成为企业合规经营的关键凭证。传统人工审核方式效率低、易出错,而卫生许可证识别技术应运而生,正逐步革新监管与合规流程。下面深入解析这项技术的核心要素。核心技术原理卫生许可证识别本…

【habitat学习一】Habitat-Lab 配置键文档详解(CONFIG_KEYS.md)

该文件是 Habitat-Lab(Facebook Research 开发的 Embodied AI 模拟框架)的核心配置文档,详细定义了 Habitat 配置系统(基于 OmegaConf)中所有可配置参数的层级结构、默认值、取值范围及功能说明。以下内容严格按文件结…

AI-调查研究-55-机器人 百年进化史:从Unimate到人形智能体的技术跃迁

点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) AI炼丹日志-31- 千呼万唤始出来 GPT-5 发布!“快的…

【python实用小脚本-190】Python一键删除PDF任意页:输入页码秒出干净文件——再也不用在线裁剪排队

Python一键删除PDF任意页:输入页码秒出干净文件——再也不用在线裁剪排队 PDF删页, 零依赖脚本, 命令行秒用, 小白神器, 瑞士军刀 故事开场:一把瑞士军刀救了你 周一早高峰,老板发来 200 页 PDF: “把第 18、25、37 页删掉&#x…

RH134 运行容器知识点

1. 相比较虚拟机,容器有哪些技术优势?答:轻量级:容器共享宿主操作系统的内核,比虚拟机更轻量级,启动速度更快,资源占用更少。高效性:容器可以快速部署和扩展,适合于微服务…

亚矩阵云手机智能定位:助力Snapchat矩阵账号的本地化内容运营穿透技术

——构建跨地理围栏的智能社交营销网络**​​一、技术架构&#xff1a;动态定位引擎与多维度穿透体系​​动态定位引擎​​多源信号融合定位​&#xff1a;集成GPS/基站/WiFi三角定位技术&#xff0c;通过亚矩阵云手机底层驱动注入真实坐标数据&#xff08;误差<5米&#xf…

数据处理和统计分析 —— Pandas 基础(附数据集)

目录 一、概述 &#xff08;一&#xff09;series 1、组成 2、创建方式 3、Series常用属性 &#xff08;二&#xff09;DataFrame 1、组成&#xff1a; 2、构建方式 &#xff08;三&#xff09;数据导入和导出 二、加载数据集 加载部分数据 loc / iloc 三、分组和聚合计算 需求…

github 如何在 readme 显示Star History

在GitHub的README文件中显示Star History&#xff08;星标历史&#xff09;图表&#xff0c;可以通过以下几种方式实现&#xff1a; 使用Star History服务 你可以使用Star History服务来生成并嵌入星标历史图表 。具体步骤如下&#xff1a; 访问 Star History 网站: https:/…

安全防范方案

一、基于地理位置的访问控制&#xff08;核心方案&#xff09; 原理&#xff1a;通过内置GeoIP数据库或第三方IP库识别访问源国家/地区&#xff0c;动态拦截非目标区域IP。 配置步骤&#xff1a; 启用GeoIP模块 登录管理控制台 → 安全策略 → 地理位置策略 → 加载MaxMind Ge…

Python爬虫实战:研究optimesh库,构建Github网格数据采集系统

1. 引言 1.1 研究背景与意义 在计算机辅助设计(CAD)、有限元分析(FEA)、计算流体力学(CFD)等领域,网格作为离散化连续空间的基础载体,其质量直接影响数值模拟的精度与效率。高质量的网格应具备单元形状规则、分布均匀、边界贴合度高等特征,而低质量网格可能导致计算…

利用Qwen大模型进行c++11并发库的学习,与时俱进!!!!

文章目录 1、学习新的东西可以借助ai和官方文档 1.1 会问问题 异步编程教程 1. std::future 2. std::shared_future 3、std::promise 4、4. std::packaged_task 5. std::async 6. std::future_status 和等待函数 综合代码 总结 1、学习新的东西可以借助ai和官方文档 因为别人写…