SAM 新用法，无需训练，利用高质量负提示提升分割性能~

论文：SynPo: Boosting Training-Free Few-Shot Medical Segmentation via High-Quality Negative Prompts
代码：https://liu-yufei.github.io/synpo-project-page/

0、摘要

大型视觉模型（Large Vision Models，LVMs）为小样本医学图像分割带来了新机遇。然而，现有基于 LVMs 的无训练方法未能有效利用负提示，在低对比度医学图像上表现不佳。（研究背景）

为此，本文提出 SynPo，一种基于 LVMs（如 SAM）的无训练小样本分割方法，核心思想是提升负提示的质量。

本文设计了置信图协同模块，融合 DINOv2 与 SAM 的优势，生成更可靠的置信图。基于该置信图，选取前 k 个像素作为正提示点集，并基于高斯分布选取负提示点集，随后分别对两者进行 K-means 聚类。最终，这些高质量提示点被输入 SAM 进行分割。大量实验表明，SynPo 的性能可与当前最优的有训练小样本方法相媲美。

1、引言

1.1、研究意义与当前挑战

（1）利用 SAM 进行无训练小样本分割的流程可概括如图 1(1) 所示。该方法以支持-查询图像对及支持掩膜为输入，首先通过强预训练视觉编码器（如 DINO）提取支持-查询图像对的特征图，随后利用余弦距离计算查询特征与目标特征之间的二维置信图，并将置信图中的最大值作为点提示，引导 SAM 在查询图像上完成交互式分割；

（2）置信图的利用仍有改进余地： DINOv2 作为该范式中常用的特征提取器，在语义特征提取方面表现出色，但其采用相对位置编码，削弱了对绝对空间位置的感知，可能导致正提示点选择错误，如图 1(2) 左下所示，这会影响解剖先验的利用，进而导致分割结果在解剖结构上不一致；而同样广泛使用的 SAM-ViT 采用绝对位置编码，具备更强的空间定位能力，能够有效避免该问题，如图 1(2) 右上绿框所示；

（3）负提示的选择策略较为粗糙： 导致分割性能下降。现有方法将置信图中与目标区域相似度最低的像素作为负提示，使得大多数负提示集中在背景区域，而非解剖区域内，图 1(3) 中的先导实验表明，该方式违背直觉，效果不佳；

Figure 1 | 无训练少样本分割面临的挑战：(1) 无训练小样本点提示分割模型的通用流程；(2) 不同置信图（C. Map）与真实标签对比，DINOv2 特征生成的置信图误将右侧无关区域识别为“相似”；SAM-ViT 特征的置信图数值区分度较低，本文提出的协同置信图融合两者优势，弥补各自不足；(3) 先导实验：在解剖区域外设置负提示，即使正提示位置相同，分割性能仍低于在区域内设置负提示；

在这里插入图片描述

1.2、本文贡献

（1）提出了一种新颖的无训练方法 SynPo，包含置信图协同模块与点提示选择模块；

（2）借助 SAM 在低层空间信息捕捉方面的优势，弥补 DINOv2 特征的不足，设计了置信图协同模块，该模块融合 DINOv2 的高层语义特征与 SAM-ViT 的绝对空间信息，提升解剖结构的识别能力并优化分割边界；

（3）点提示策略模块通过在解剖区域内启发式地选择负提示，提升了负提示的信息量，增强了提示引导效果，减少了冗余信息；

（4）引入噪声感知优化模块，结合标准形态学操作与 SAM 对粗分割结果进行细化；

2、方法

2.1、总览

SynPo方法，如图 2 (1) 所示，由三个核心部分组成：置信图协同模块（CMSM）、点选择模块（PSM）和噪声感知优化模块（NRM）。给定一个支持-查询对，首先使用预训练的视觉模型（SAM-ViT 和 DINOv2）提取零样本视觉特征。

在 CMSM 中，特征图与支持掩码 $MS∈RH×W\mathcal M_S∈\mathbb R^{H×W}$ 共同用于计算协同映射 $SynMap∈RH×WSynMap∈\mathbb R^{H×W}$ ，并建模负置信度分布 $P_{neg}$ ，这些要素共同支撑提示信息的生成。

在 PSM 中，协同映射中的像素按其置信度得分排序形成一个分级列表，该列表与置信度分布共同构成点提示选择的关键决定因素。

最后，生成的点提示和查询图像 $I_Q$ 被输入到 SAM 中，以预测粗略掩码 $Mcoarse∈RH×W\mathcal M_{coarse} ∈\mathbb R^{H×W}$ ，此外，设计了额外的 NRM 来对 $Mcoarse\mathcal M_{coarse}$ 进行细化。

Figure 2 | ：（1）SynPo 架构概述；（2）置信图协同作用示意图；（3）点选择模块图示；

在这里插入图片描述

2.2、置信图协同模块（CMSM）

如图 2 (2) 所示，CMSM 是一种创新方法，它包含两个分支来生成协同图，并附带生成负置信度分布。对于上分支，使用 $Ms\mathcal M_s$ 从 $Fs\mathcal F_s$ 中提取与视觉概念中前景像素对应的支持特征：
在这里插入图片描述
其中 $TSi∈R1×c\mathcal T_S^i ∈ \mathbb R^{1×c}$ ， $◦$ 表示空间维度乘法运算。随后，通过计算 $TSi\mathcal T_S^i$ 与查询特征 $FQ\mathcal F_Q$ 之间的余弦相似度，为每个前景像素 $i$ 生成 $n$ 个置信度图：
在这里插入图片描述
接下来，采用平均池化方法来聚合所有 $n$ 个局部特征图，从而获得目标器官的整体置信度图 $S∈RH×W\mathcal S ∈ \mathbb R^{H×W}$ 。

在生成负置信度图的下分支中，通过 $Mˉs\bar{\mathcal M}_s$ 从 $Fs\mathcal F_s$ 中裁剪出视觉概念内背景像素的支持特征，其中 $Mˉs\bar{\mathcal M}_s$ 表示 $Ms{\mathcal M}_s$ 的逆矩阵：
在这里插入图片描述
其中 $BSi∈R1×c\mathcal B_S^i ∈ \mathbb R^{1×c}$ ， $◦$ 表示空间维度乘法运算。随后，将 $BS\mathcal B_S$ 视为 $Fq\mathcal F_q$ ，并以相同方式计算负置信度图 $Sneg\mathcal S_{neg}$ 。

随后，将 $SSAM\mathcal S_{SAM}$ 与 $SDINO\mathcal S_{DINO}$ 结合生成 $S y n M a p$ ：

在这里插入图片描述
其中 $⊙$ 表示哈达玛积，且 $δ_{S-D} + δ_S + δ_D = 1$ 。第一项捕捉了两个矩阵之间的非线性相互作用，有效地放大了结果矩阵中的极端值。这增强了对两个置信度图中显著偏差的敏感性，同时降低了中性或中等数值的影响。此外，后续项为每个矩阵的贡献提供了受控权重。接下来，对 $SnegSAM\mathcal S^{SAM}_{neg}$ 和 $SnegDINO\mathcal S^{DINO}_{neg}$ 应用相同流程，生成融合表征，随后将其展平以获得 $SynMapneg∈R(H×W−1)×1SynMap_{neg}∈ \mathbb R^{(H×W-1)×1}$ ：

在这里插入图片描述
对于 $SynMap_{neg}$ ，采用高斯概率密度函数对其中的每个像素值 $p_i$ 进行建模：

在这里插入图片描述
其中 $μ$ 和 $σ$ 通过最大似然估计得出。

2.3、点选择模块（PSM）

将协同图中的每个像素点 $p_i = (x_i, y_i, c_i)$ 按照该像素置信度分数 $c_i$ 进行降序排列，其中 $x_i$ 、 $y_i$ 表示该像素的坐标位置。

对于正样本点，选取概率值 $p_i$ 的前 $γ_1·K_p$ 个点，其中 $γ_1$ 是聚类比例因子， $K_p$ 代表期望的正样本点数量。所选点的坐标集合可表示为：
在这里插入图片描述
其中 $pi∈R2p_i∈\mathbb R^2$ 。接下来，对这些坐标进行 K 均值聚类并选取 $K_p$ 个中心点，从而得到 $Ppos\mathcal P_{pos}$ ：

其中 $Ppos∈RKp×2\mathcal P_{pos}∈ \mathbb R^{K_p×2}$ 代表坐标集合。

对于负样本点，最多从置信区域选取 $γ_2·K_n$ 个与感兴趣区域更相关的像素点，其定义如下列方程所示：
在这里插入图片描述
其中 $µ$ 和 $σ$ 源自 $SynMap_{neg}$ ， $α$ 和 $β$ 是用户定义的用于控制置信区间边界的常数。随后随机选取 $γ_2·K_n$ 个像素点：

随后，将类似的聚类方法应用于正样本点，得到 $Pneg\mathcal P_{neg}$ ：

在这里插入图片描述
最终，取两个集合的交集并为这些点分配标签，从而得到该集合：

其被输入至 SAM 模型以生成粗分割结果 $Mcoarse\mathcal M_{coarse}$ 。

2.4、噪声感知优化模块（NRM）

该模块首先通过初始腐蚀操作来优化由 PSM 生成的原始粗糙掩膜 $Mcoarse\mathcal M_{coarse}$ ，以去除细小噪声，随后进行膨胀步骤以恢复主要结构区域。设 $Mj\mathcal M_j$ 表示针对 $Mcoarse\mathcal M_{coarse}$ 第 $j$ 个连通区域 $C_j$ 所获得的掩膜，通过 $Mj\mathcal M_j$ 对查询特征进行分割：
在这里插入图片描述
其中 $∣ C j ∣$ 表示 $C_j$ 区域内的总像素数。随后，将 $T_{Q,Cj}$ 视作 $F_q$ ，并采用相同方式计算 $C_j$ 区域的置信度得分，得到 $SCj\mathcal S_{C_j}$ 。接着在每个连通域内计算均值：

在这里插入图片描述
选择得分最高的连通区域作为 $Mrefine\mathcal M_{refine}$ ，并将其作为掩码提示输入 PSM 模型。结合点提示，这有助于进一步细化分割结果。随后再次通过相同步骤处理输出，最终生成分割结果 $Mfinal\mathcal M_{final}$ 。

3、实验与结果

3.1、实验设置

（1）数据集与评价指标：Synapse-CT 数据集：30 例腹部 CT 三维扫描；CHAOSMRI 数据集：20 例 T2-SPIR 磁共振三维扫描；五折交叉验证报告 Dice 系数的标准差；

（2）实施细节：将图像转换为 256×256 大小的感兴趣区域，使用 DINOv2 模型（Sinder）提取特征，得到一个空间尺寸为 64×64 的特征图。接着应用 SAM 模型（Sam2.1 Hiera 大图预测）获取相同空间尺寸 64×64 的特征图，分别对应高度和宽度。所有实验都在 NVIDIA RTX-3090 上进行。至于超参数，对于 Synapse-CT 和CHAOS-MRI， $δ_{S-D}$ 、 $δ_S$ 和 $δ_D$ 均设定为 0.8、0.1 和 0.1；