在 2D 自然图像和视频的交互式分割领域,基础模型已引发广泛关注,这也促使人们开始构建用于医学成像的 3D 基础模型。然而,3D 医学成像存在的领域差异以及临床应用场景,要求开发一种有别于现有 2D 解决方案的专用模型。具体而言,这类基础模型应支持一套完整的工作流程,切实减少人工操作。

将 3D 医学图像视为 2D 切片序列,并复用交互式 2D 基础模型,看似简单直接,但在 3D 任务中,2D 标注过于耗时。此外,对于大规模队列分析,高精度的自动分割模型才能最大程度减少人工工作量。然而,这些模型缺乏对交互式修正的支持,也不具备对新型结构的零样本处理能力 —— 而这正是 “基础模型” 的关键特性。尽管在 3D 模型中复用预训练的 2D 骨干网络能增强零样本潜力,但它们在处理复杂 3D 结构时的性能仍落后于顶尖的 3D 模型。

2025年6月,英伟达公司联合牛津大学在CVPR 2025 在线发表题为VISTA3D: A Unified Segmentation Foundation Model For 3D Medical Imaging”的研究论文。该研究提出了 VISTA3D(多功能成像分割与标注模型),旨在通过一个统一的基础模型应对所有这些挑战和需求。

VISTA3D 基于成熟的 3D 分割流程构建,是首个在 3D 自动分割(支持 127 个类别)和 3D 交互式分割两方面均达到最先进性能的模型,即便在大型多样化基准测试中与顶尖的 3D 专业模型相比也是如此。此外,VISTA3D 的 3D 交互式设计支持高效的人工修正,而其创新的 3D 超体素方法(通过提炼 2D 预训练骨干网络构建)则赋予了 VISTA3D 顶尖的 3D 零样本性能。作者认为,该模型、其构建方法以及相关见解,代表着在迈向具有临床实用性的 3D 基础模型道路上迈出了充满希望的一步。

由于促炎巨噬细胞向抗炎巨噬细胞的复极化受损,传统的骨组织工程材料难以在糖尿病期间恢复生理性骨重塑。

三维医学成像技术,如计算机断层扫描(CT),被广泛用于生成人体各部位的横截面体素图像。作为一种主要的解剖成像方式,它能够清晰呈现人体结构和异常组织的详细形态信息。在临床实践中,手动分割既耗时又繁琐,因此开发更优的自动分割模型一直是研究的热点领域之一。其中一个典型方向是改进网络架构,并为特定任务定制训练方案。针对每个任务,通常需要精心准备特定的训练数据集并训练专业模型,这对工程技术能力提出了较高要求。因此,一种能够 “开箱即用” 解决多种任务的模型更具应用价值。

与自然图像中存在无限多目标类别不同,CT 或 MRI 所呈现的临床相关人体正常解剖结构是有限的(如肝脏、胰腺等),因此从技术层面而言,训练一个能够支持大多数标准人体解剖结构的自动分割模型是可行的。然而在实际应用中,临床医生可能更关注罕见病变或动物数据,而由于数据稀缺,这些通常不在现有模型的支持范围内。缺乏处理这类场景的零样本能力,成为了模型的一大局限性。同时,对于手术规划等流程,模型还需支持人工介入进行修正,这一点也至关重要。

近年来,大型语言模型在各类任务中展现出强大的泛化能力,被视为基础模型。“可提示” 系统的理念随之提出,旨在实现一种能够 “开箱即用” 解决不同任务的灵活模型。在图像分割领域,“万物分割”(Segment Anything,SAM)引发了广泛关注,并取得了令人瞩目的零样本性能。在医学领域,近期研究通过模型微调,将 SAM 适配到医学成像模态中。这些基于 SAM 的方法在 2D 场景中借助交互式用户输入,取得了颇具前景的成果。但对于 3D 医学图像,此类提示(如点提示)需要绑定到每个类别、每个切片和每个扫描图像,这往往需要大量人工操作,难以应用于大规模队列数据分析。

近期的 “视频万物分割”(Segment Anything in Video,SAM2)引发了更大关注,因为 3D 扫描图像可表示为 2D 横截面图像(切片)的堆叠,而视频也是 2D 图像(帧)的堆叠。然而,实验表明,即使在 3D 医学数据集上进行了充分微调,SAM2 框架仍无法与 VISTA3D 相比,尤其是在处理复杂 3D 结构时(详见补充材料)。SAM2 主要用于追踪随时间变化的目标,但医学成像需要对体素输入进行空间一致性处理。例如,不同时间帧中的汽车仍是同一辆,但其实时 2D 横截面图像可能对应完全不同的物体,如座椅和发动机。这体现了 2D 自然图像或视频与横截面医学图像之间的巨大差异。类似地,SAM3D 通过 2D SAM 编码器逐切片提取 3D 体素特征,并结合 3D 解码器,但结果远逊于专业 3D 模型。简单地将自然图像领域的方法应用于 3D 医学图像,显然是不够的。

近期探索医学图像分割上下文学习的研究,能够在示例图像或文本的引导下分割任意类别。这看似是一种理想方案,因为它无需模型微调或耗时的人工输入。但这类方法的性能远落后于特定数据集的有监督模型(如 nnU-Net)。

图片

图 1. 图 (a) 展示了 VISTA3D 支持的完整人机协同工作流程。如果分割任务 X 属于 127 个支持类别(左侧绿色圆圈),VISTA3D 会执行高精度自动分割。医生可对结果进行检查,必要时借助 VISTA3D 高效编辑。如果 X 是新型类别(右侧蓝色圆圈),VISTA3D 会执行 3D 交互式零样本分割。图 (b) 展示了 VISTA3D 的架构,它包含两个分支,共享同一个图像编码器。若用户提供的类别提示属于 127 个支持类别,顶部的自动分支会启动 “开箱即用” 的自动分割功能;若用户提供 3D 点选提示,底部的交互分支会启动交互式分割功能。若两个分支同时启动,基于算法 1 的合并模块会利用交互结果对自动分割结果进行编辑。

作者认为,3D 医学图像分割基础模型应支持一套完整的工作流程(图 1 (a)),以减少人工操作,其核心能力包括:1)对常见器官或结构进行高精度自动分割;2)支持与专家的交互,以便对现有分割结果进行有效优化;3)具备零样本能力,既允许用户交互式标注未见过的类别,也能通过文本或示例引导进行上下文学习。模型应在 3D 空间中运行,因为 2D 逐切片方法不仅耗时,还可能无法充分利用 3D 视觉上下文;4)具备少样本 / 迁移学习能力,允许用户在新类别上快速微调模型,以实现精确的自动分割 —— 鉴于现有上下文学习或开放词汇分割在精度上仍落后于专业 3D 模型。

为支持这一工作流程并达到与顶尖专业模型相当的性能,模型应基于成熟的 3D 流程构建,依赖 3D 骨干网络和滑动窗口推理。但这一方向未能充分利用现有具备强大零样本能力的 2D 预训练权重(如 SAM)。复用 SAM 权重并添加轻量级 3D 适配模块看似可行,但由于冻结了大部分权重,其在多类别上的自动分割性能(与 TotalSegmentator 相比)受到限制。因此,面临的挑战是:如何构建一个既具备成熟 3D 流程优势,又能利用 2D 自然图像领域的见解和检查点来解决 3D 问题的模型。基于此目标,提出了 VISTA3D,主要贡献如下:

1.首个支持完整标注工作流程的统一基础模型,在 14 个具有挑战性的数据集(含 127 个类别)上进行基准测试,与成熟基线模型相比,在 3D 可提示自动分割和交互式编辑方面均达到最先进性能。

2.提出一种新颖的超体素方法,用于提炼 2D 基础模型以适配 3D 医学成像,将 VISTA3D 的零样本性能提升 50%,在大幅减少标注工作量的情况下,实现了最先进的 3D 零样本性能。

3.构建了一个包含 11454 次扫描的大型 CT 数据集,结合部分手动标签、伪标签和超体素,提出一种新颖的四阶段训练方案,以应对挑战,实现最先进的性能和编辑体验。

图片

图 2. 由算法 2 生成的超体素,展示了轴位、矢状位和冠状位视图的示例。不同颜色代表不同的超体素。

图片

图 3. 用点修正自动分割结果。左图为肝脏自动分割结果,存在一个假阴性区域。在添加一个正点后,该假阴性区域得到了修正。第三幅图显示了另一个切片,其中存在一个假阳性区域,在添加一个负点后,该区域在最后一幅图中被移除。

图片

图 4. 猴类 CT 扫描的一个示例(2 个矢状位切片)。可以看出,VISTA3D 实现了更稳健的分割。

卓越性能

图片

图片

图 5. 零样本 Dice 评分。X 轴为点击点数,Y 轴为整个数据集的平均 Dice 评分。

图片

图 6. 肾脏肿瘤的细粒度零样本交互式分割。第一幅图显示了肿瘤区域。步骤 1:在肿瘤上点击一个正点(红色)并得到结果。步骤 2:点击更多点以细化细节。此时结果存在过分割,步骤 3:添加一个负点(蓝色),得到最终结果。

参考:

https://arxiv.org/pdf/2406.05285

https://github.com/Project-MONAI/VISTA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/919320.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/919320.shtml
英文地址,请注明出处:http://en.pswp.cn/news/919320.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决“Win7共享文件夹其他电脑网络无法发现共享电脑名称”的问题

要让运行 Windows 7 的电脑被局域网中其他设备(包括另一台电脑、手机、NAS 等)“发现”,必须同时满足三个条件: 网络发现功能已启用;对应的后台服务已启动;防火墙规则放行。 下面给出最简、最稳妥的 3 步设…

Python pyzmq 库详解:从入门到高性能分布式通信

一、前言 在现代软件开发中,进程间通信(IPC)与分布式系统通信已经成为基础能力。无论是构建一个微服务架构的后端,还是实现大规模并行计算任务,如何让不同的进程或节点之间高效地传递消息,都是核心问题。 传…

CentOS 7更换国内镜像源

第一步:检查系统版本 在修改任何配置之前,先确定你的 CentOS 版本,因为不同版本的镜像源配置文件不同。 cat /etc/redhat-release这个命令会显示你的 CentOS 版本信息,例如 CentOS Linux release 7.9.2009 (Core)。从你的错误日志…

详解 doclayout_yolo:Python 文档布局检测

目录一、doclayout_yolo 核心功能二、安装方法1. 直接安装2. 通过 PDF-Extract-Kit 安装三、使用示例1. 快速体验(HuggingFace Demo)2. 本地推理代码3. 批量处理四、技术亮点五、应用场景六、其他说明1.相关资源2. 注意事项doclayout_yolo 是一个基于 Y…

猫头虎AI分享|一款Coze、Dify类开源AI应用超级智能体Agent快速构建工具:FastbuildAI

猫头虎AI分享|一款 Coze、Dify 类开源 AI 应用超级智能体快速构建工具:FastbuildAI 区别在于它的易用度和商业闭环功能 摘要:FastbuildAI 是一个开源的 AI 应用“快速构建 商业化闭环”工具。它让个人开发者与小团队用 可视化 零代码 的方…

GitLab 安全漏洞 CVE-2025-6186 解决方案

本分分享极狐GitLab 补丁版本 18.2.2, 18.1.4, 18.0.6 的详细内容。这几个版本包含重要的缺陷和安全修复代码,我们强烈建议所有私有化部署用户应该立即升级到上述的某一个版本。对于极狐GitLab SaaS,技术团队已经进行了升级,无需用户采取任何…

【K8s】harbor安装与推送镜像

引言 在开发中,先推送镜像到docker,然后直接在docker运行。但是在K8S中,需要动态创建或者分配机器,这里需要将镜像推送到harbor仓库,然后再从仓库拉取到每台集群机器。 docker安装harbor:https://learnku…

FPGA读取AHT20温湿度模块思路及实现,包含遇到的问题(IIC协议)

一.阅读官方手册 手册在下方网址下载,该模块在各个网店平台均有销售 百度网盘 请输入提取码 手册重点关注IIC地址(读地址0x71,写地址0x70)、IIC命令和读写数据逻辑,手册写的比较简单(感觉很多细节没到位…

项目会议怎么开才有效

要提高项目会议的有效性,需要做到以下几点:明确会议目的、制定具体的会议议程、合理控制会议时长、提前准备会议资料、选择合适的参会人员、设定清晰的会议目标、确保会议有决策和行动方案、会后及时跟进与落实。其中,明确会议目的尤为重要。…

计算机视觉第一课opencv(二)保姆级教

目录 简介 一、边界填充 1.函数说明 2.案例分析 二、图像运算 1.号运算 2.cv2.add()函数 3.图像加权运算 三、阈值处理 四、图像平滑处理 1.椒盐噪声 2.均值滤波(Mean Filtering) 3.方框滤波 4. 高斯滤波(Gaussian Filtering&am…

母猪姿态转换行为识别:计算机视觉与行为识别模型调优指南

> 在现代智能化养殖中,母猪姿态识别是健康监测的关键技术。本文将带你从0到1构建高精度母猪姿态识别系统,准确率可达95%以上! ## 一、为什么母猪姿态识别如此重要? 母猪的行为姿态是其健康状况的重要指标: - **站立姿态**:可能表示发情期或进食需求 - **侧卧姿态**:…

循序渐进学 Spring (下):从注解、AOP到底层原理与整合实战

文章目录7. 自动装配 (Autowiring)7.1 XML 自动装配7.2 使用注解实现自动装配Autowired vs Resource8. 使用注解开发(完全体)8.1 定义 Bean (Component 及其衍生注解)8.2 注入属性 (Value)8.3 注入对象8.4 定义作用域 (Scope)8.5 小结:XML vs…

C#WPF实战出真汁06--【系统设置】--餐桌类型设置

1、系统设置的基本概念系统设置是用于配置和管理餐桌类型和菜品类型,是维护整个系统的基础数据。通过系统设置,用户可以调整餐桌类型的添加,删除,编辑,分页,查询,重置,列表&#xff…

旋钮键盘项目---foc讲解(闭环位置控制)

hello,周六休息了一天,出去打本了。趁着夜色,花费了几个小时,也是将闭环代码写完,参考了灯哥的思路。接下来介绍一下我的整个流程: 一、闭环位置控制思路: 其实懂得了开环,那么闭环…

为什么有些相机“即插即用”,而有些则需要采集卡?

在工业生产中,工业相机是“眼睛”,它帮助我们看到世界,但你知道吗?不同的工业相机接口就像不同的“通道”,有些“通道”直接就能与计算机连接,而有些则需要一个额外的小配件——图像采集卡。那么&#xff0…

【计算机网络 | 第7篇】物理层基本概念

文章目录物理层基本概念及数据通信系统解析一、物理层的核心定位🥝二、物理层的功能🧾三、数据通信系统的模型🐦‍🔥(一)源系统(二)传输系统(三)目的系统四、…

一般情况下,python函数都会返回对象,但有时只调用一个函数,这是在修改这个信息

class Model:def __init__(self):self.training Truedef eval(self):self.training Falsereturn Nonem Model() print(m.training) # True m.eval() # 返回 None print(m.training) # False,模型内部状态已改变m.eval()是在修改m的…

2025-08-17 李沐深度学习17——语义分割

文章目录1 语义分割1.1 介绍1.2 语义分割应用1.3 实例分割2 转置卷积2.1 工作原理2.2 为什么叫“转置”卷积2.3 转置卷积也是一种卷积3 FCN3.1 核心思想3.2 网络架构4 样式迁移4.1 基于 CNN 的样式迁移4.2 工作流程1 语义分割 1.1 介绍 语义分割(Semantic Segment…

《若依》权限控制

若依内置了强大的权限控制系统,为企业级项目提供了通用的解决方案 以CRM系统为例,演示权限功能(URL:https://huike-crm.itheima.net) demo账号(超级管理员)查看所有功能菜单 zhangsan账号(市…

云原生俱乐部-RH134知识点总结(3)

这个系列的第二篇写了将近5000字,而且还是删节内容后的,如RAID就没写,因为头已经很大了。第二篇从早上写到下午,因为偷懒了,写着写着就停笔了。不过好在总算磨完了,现在开始写RH134系列的最后一篇内容。我这…