随便记录一下最近阅读的几篇论文

1. Does DINOv3 Set a New Medical Vision Standard?

第一章 动机 (Motivation)

自然图像领域的成功范式:大型语言模型(LLMs)和视觉基础模型(如 DINO 系列)证明,通过自监督学习(SSL)在海量无标注数据上进行预训练,可以学习到极其强大且通用的表征能力,并遵循显著的“缩放定律”(模型越大、数据越多,性能越好)。

医学影像领域的独特挑战:

  1. 数据稀缺与获取困难:医学数据标注成本极高,且受隐私、法规限制,难以构建大规模数据集。
  2. 模态极度多样化:包括 2D(X光、病理切片)、3D(CT、MRI)、灰度图、RGB图像等多种成像技术,每种都需要不同的视觉理解能力。
  3. 对细微特征敏感:诊断依赖于捕捉图像中微小、细微的异常模式,因此对视觉表征的质量要求极高。

核心矛盾与问题: 医学领域亟需一个强大的、现成的(off-the-shelf)视觉特征提取器,但受限于上述挑战,很难从头训练一个大规模医学视觉基础模型。那么,一个直接的问题是:在自然图像上训练出的顶尖模型,其能力能否直接迁移到医学领域? 这就引出了论文要探究的几个根本性问题。

第二章 论文基准测试设置 (Benchmark Setup)

1. 2D医学图像分类 (2D Medical Image Classification)

任务描述:处理二维平面图像进行诊断分类。
方法:直接将2D图像输入DINOv3编码器,获取图像级特征后进行线性分类或更复杂的下游训练。

使用的数据集与评估协议:

数据集模态内容与规模任务评估协议
NIH-14胸部X光112,120张图像,30,805名患者14种胸廓疾病的多标签分类严格遵守官方提供的患者划分
RSNA-Pneumonia胸部X光29,700张图像肺炎分类(二分类)遵循MGCA论文提出的标准化数据划分方法
Camelyon16病理WSI (RGB)399张淋巴结切片乳腺癌转移检测(肿瘤 vs. 正常)1. 官方划分(270训练/129测试)
2. 多折交叉验证 on test set
3. 在Camelyon17上测试泛化能力(跨中心)
Camelyon17病理WSI (RGB)多中心数据集,500张切片(100名患者)作为域外泛化测试集使用其官方训练集作为测试集(因官方测试标注未公开),评估从Camelyon16训好的模型在Unseen子集上的表现
BCNB病理WSI (RGB)1,058名患者的早期乳腺癌活检切片5项预测任务:
- 腋窝淋巴结(ALN)转移状态
- 分子状态(ER, PR, HER2, Ki67)
5折交叉验证,每折内按 7:1:2 划分训练/验证/测试集。使用CLAM方法提取图像块(~968 patches/WSI)

2. 3D医学图像分类 (3D Medical Image Classification)

  • 任务描述:对三维体积数据(如CT、MRI)进行整体分类。 核心方法:采用 “切片级特征提取 + 聚合” 策略:
  • 独立处理:将3D体积的每一个2D切片分别输入DINOv3 backbone,得到每个切片的特征嵌入(embedding)。
  • 特征聚合:将所有切片的特征通过平均池化(Mean Pooling) 聚合为一个代表整个体积的特征向量。
  • 下游分类:用聚合后的特征训练分类器。

使用的数据集与评估协议:

数据集模态内容与规模任务评估协议
CT-RATE非增强CT47,000个CT体积,20,000名患者18种临床异常的多标签二分类使用官方数据划分。采用两种下游评估方法:
1. 零样本 k-NN
2. 线性探测(Linear Probing)

3. 3D医学图像分割 (3D Medical Image Segmentation)

  • 任务描述:在三维体积数据上进行体素级的预测,以分割解剖结构或病变。
  • 核心方法:采用 “逐片特征提取 + 伪3D重构” 策略
  • 逐片处理:将3D体积的每一个2D切片分别输入DINOv3,并保留完整的2D特征图(而非图像级嵌入)。
  • 构建伪3D特征体积:将所有2D特征图沿切片方向堆叠,形成一个3D的特征体积
  • 轻量级分割头:将这个伪3D特征体积输入一个轻量的3D分割头(如UNet式 decoder),最终生成体素级预测。

使用的数据集与评估协议:

数据集模态内容与任务评估协议
Medical Segmentation Decathlon (MSD)CT, MRI10个不同的3D分割任务,涵盖脑肿瘤、心脏、肝脏、海马体、前列腺、肺、胰腺、肝血管、脾脏和结肠官方评估平台已关闭,采用 5折交叉验证。遵循此前工作的标准协议(体积标准化、随机旋转/翻转等数据增强)
CREMI电子显微镜(EM)3个子集(A,B,C),难度递增,用于神经元分割每个子集:前100张切片训练,后25张测试
AC3/AC4电子显微镜(EM)两个密集标注的EM体积,用于神经元分割在AC4(前80切片)上训练,在AC3(前100切片)上测试 -> 测试域外泛化
AutoPET-IIPET/CT1,014个全身PET/CT扫描,用于肿瘤病灶分割使用官方划分的训练/验证集。强度标准化,使用随机旋转/翻转等数据增强
HECKTOR 2022PET/CT882个头颈部PET/CT扫描,用于原发灶(GTVp)和淋巴结(GTVn)肿瘤分割遵循官方挑战协议和预处理流程(图像配准、强度标准化)

实验baseline model设置

模型参数量预训练数据数据类型数据模态学习范式
BiomedCLIP86M1500万图像-文本对2D 图像-文本多样生物医学图像文本监督
CT-CLIP86M5万体积+报告3D 体积-文本胸部CT文本监督
UNI304M1亿图像块2D 图像块头部/腹部/胸部CT视觉自监督
CONCH86M117万 2D 块-文本对2D 块-文本病理学文本监督
DINOv3-S/B/L22M/86M/304M17亿自然图像2D 图像自然图像视觉自监督

第三章 实验结论分析

任务类别具体任务与数据集实验结论原因分析
2D分类胸部X光分类 (NIH-14, RSNA-Pneumonia)表现出色,确立新基线。DINOv3-L在NIH-14上AUC 0.7865,超越医学专用模型BiomedCLIP (0.7771)。在RSNA上与BiomedCLIP性能接近。DINOv3从自然图像中学到的物体结构和形状表征能力,与X光片中基于宏观结构异常进行诊断的模式高度吻合。
2D分类病理切片(WSI)分类 (Camelyon16, Camelyon17, BCNB)性能显著落后。AUC (~0.84) 远低于病理专用模型UNI和CONCH (AUC >0.96),仅与ResNet50相当。泛化能力差。病理分析依赖细粒度的纹理和细胞模式,与DINOv3关注的“物体”级特征不匹配。表明领域专业化预训练绝对必要
3D分类3D CT体积分类 (CT-RATE)性能卓越,显著超越基线。DINOv3-B (线性探测) AUC 0.798,显著高于专用基线CT-CLIP (0.731)。DINOv3的2D特征通过切片平均池化聚合后,能有效表征整个3D体积,捕捉与诊断相关的视觉模式。
3D分割多器官分割 (MSD)都是物体级别特征,表现尚可但平庸。为自监督方法设立新SOTA基线,但整体性能(71% Dice)远低于全监督nnU-Net (81.4% Dice)。在个别任务(肺、脾)上达到最佳。简单的“冻结主干+逐片处理”策略不足以击败端到端训练的复杂3D架构。但其强大的2D特征是一个“不错的起点”。
3D分割神经元分割 (EM: CREMI, AC3/4)灾难性失败。误差指标(VOI, ARAND)比经典方法高出十倍以上DINOv3特征缺乏高频纹理细节,无法描绘神经元间错综复杂的边界。自然图像与EM图像领域差距过大
3D分割肿瘤分割 (PET/CT: AutoPET-II, HECKTOR)性能极差。Dice分数极低(<15%),远低于现有模型(>50%)。DINOv3特征适用于解剖结构,但无法解读PET数据中的功能性代谢信息。这是与自然图像模式的根本性背离
缩放定律所有任务缩放定律不一致且不可靠。性能不随模型变大(S->B->L)或分辨率提高而单调增加。最佳模型规模因任务而异。自然图像与医学图像存在领域差距。简单地堆砌计算资源不能解决所有问题,必须为不同任务仔细选择模型规模和分辨率

2. Training Language Models to Self-Correct via Reinforcement Learning(2024)

Google技术报告

任务定义: 大模型自我反思被定义为两阶段的问同一个问题,但是思考多次

在这里插入图片描述
主要方法以及实验可以在下面表示:
在这里插入图片描述
主要方法的训练过程:在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/96793.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/96793.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/96793.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Avalonia 基础导航实现:从页面切换到响应式交互全指南

在 Avalonia 开发中&#xff0c;导航功能是构建多页面应用的核心需求。Avalonia 无需依赖第三方库&#xff0c;仅通过内置控件与 MVVM 模式即可实现灵活的页面切换。本文将以 “基础导航” 为核心&#xff0c;从 ViewModel 与 View 设计、导航逻辑实现&#xff0c;到样式美化与…

UniApp 分包异步化配置及组件引用解决方案

具体参考微信小程序文档基础能力 / 分包加载 / 分包异步化 一、分包页面组件配置 在 UniApp 的pages.json中&#xff0c;为分包页面&#xff08;或主包如 tabbar 页面&#xff09;配置异步组件时&#xff0c;需同时设置usingComponents和componentPlaceholder&#xff1a; {&…

系统核心解析:深入操作系统内部机制——进程管理与控制指南(一)【进程/PCB】

♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥ ✨✨✨✨✨✨个人…

微论-神经网络特征空间的动态聚集,对抗灾难性遗忘的新范式

这是一个非常有趣且富有想象力的理论构想。受陀螺仪启发&#xff0c;我将陀螺仪的“定轴性”与“进动性”原理引入神经网络的特征空间&#xff0c;探讨一种对抗灾难性遗忘的新范式。---### **基于陀螺仪原理的神经网络记忆巩固理论探讨**#### **引言&#xff1a;记忆的流失与稳…

鸿蒙审核问题——折叠屏展开态切换时,输入框内容丢失

文章目录背景解决历程1、无意中发现了眉目2、确定问题原因3、解决办法4、官方文档5、总结背景 奇葩的事情年年有啊&#xff0c;今年特别多。这不今天又遇到了一个奇葩的问题。鸿蒙NextAPP上架AppGallery市场&#xff0c;审核拒了&#xff0c;说是折叠屏手机展开态切换时&#…

前后端分离架构中,Node.js的底层实现原理与线程池饥饿问题解析

在VueJava/.NET的前后端分离架构中&#xff0c;Node.js的底层实现原理与线程池饥饿问题解析 一、架构概述&#xff1a;Node.js的定位与角色 在现代Web开发中&#xff0c;Vue.js作为前端框架与Java/.NET后端结合的架构非常流行。在这种架构中&#xff0c;Node.js通常扮演着两个关…

Django ModelForm:快速构建数据库表单

Django 中的 forms.ModelForm —— 它是 Django 表单系统和 ORM 的一个“桥梁”&#xff0c;能帮助你快速基于 数据库模型&#xff08;Model&#xff09; 自动生成表单&#xff0c;极大减少重复代码。1. 什么是 ModelForm 普通 Form (forms.Form)&#xff1a;完全手写字段&…

补 json的作用

&#xff1a;“我开车直接拧钥匙就能走&#xff0c;为什么还要看仪表盘和用中控台&#xff1f;”直接点击“运行”&#xff0c;就像是汽车的自动驾驶模式。它能帮你开起来&#xff0c;但你不知道它走的是哪条路&#xff0c;油门踩多深。使用 launch.json 配置&#xff0c;就像是…

apache详细讲解(apache介绍+apache配置实验+apache实现https网站)

1.apache HTTP server介绍httpd项目地址:https://httpd.apache.org/ 在Apache2中有三种工作模式&#xff0c;使用者可以根据不同的业务场景来进行选择(1)prefork模式prefork模式是一种老而稳的模式:一个主进程管理者多个子进程&#xff0c;每个子进程单独处理用户请求&#xf…

jajajajajajajava

线程1 线程概念进程:进程指正在内存中运行的程序。进程具有一定的独立性。线程:线程是进程中的一个执行单元。负责当前进程中程序的执行。一个进程中至少有一个线程。如果一个进程中有多个线程&#xff0c;称之为多线程程序。java中的线程采用的是抢占式调度&#xff0c;如果线…

虚拟机CentOS里JDK的安装与环境配置

---本文以JDK17为例---步骤 1&#xff1a;进入/tmp临时目录# 进入临时目录 cd /tmp步骤 2&#xff1a;下载 Java 17 安装包wget https://github.com/adoptium/temurin17-binaries/releases/download/jdk-17.0.9%2B9/OpenJDK17U-jdk_x64_linux_hotspot_17.0.9_9.tar.gz步骤 3&am…

mybatis-plus多租户兼容多字段租户标识

默认租户插件处理器的缺陷 在springboot工程中引入mybatis-plus的租户插件TenantLineInnerInterceptor&#xff0c;能简化我们的数据隔离操作&#xff0c;例如各类含租户用户登录权限的rest接口中&#xff0c;不需要再根据登录用户-set租户条件-触发查询&#xff0c;租户插件能…

HBase高级特性(布隆过滤器和协处理器)、列族设计、rowkey设计以及热点问题处理

在阐述HBase高级特性和热点问题处理前&#xff0c;首先回顾一下HBase的特点&#xff1a;分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[]&#xff0c;主要用来处理结构化和半结构化数据&#xff0c;底层数据存储基于hdfs。 同时&#xff0c;HBase和传统数据库…

redis sentinel 与 clauster 的区别

Redis Sentinel(哨兵)和Redis Cluster(集群)是Redis提供的两种不同的高可用和扩展性解决方案,它们的设计目标和适用场景有显著区别: 1. 核心功能与目标 Redis Sentinel 主要解决主从架构的高可用问题,实现自动故障转移 监控主从节点状态,当主节点故障时自动将从节点提…

MySQL数据库中快速导入大数据sql

1.PwerShell命令页面导入全表数据库 -P3310 指定数据库端口号Get-Content "本地sql文件目录" | .\mysql -u root -p -P 33102.PwerShell命令页面导入单表到数据库 -P3310 指定数据库端口号Get-Content "本地sql文件目录" | .\mysql -u root -p -P 3310 数…

消息类型proto的编写和生成

消息类型proto的编写和生成 代码如下&#xff1a; syntax"proto3"; package xypmq;enum ExchangeType {UNKNOWNTYPE0;DIRECT1;FANOUT2;TOPIC3; };enum DeliveryMode {UNKNOWNMODE0;UNDURABLE1;DURABLE2; };message BasicProperties {string id1;DeliveryMode deliver…

Vuetify:构建优雅Vue应用的Material Design组件库

Vuetify是一个基于Material Design设计规范的Vue.js UI组件库&#xff0c;它提供了80多个精心设计的组件&#xff0c;帮助开发者快速构建美观且功能丰富的企业级应用。核心特性1. 完整的Material Design实现// 所有组件遵循Material Design规范 <v-btn color"primary&q…

SpringBoot 注解深剖:@RequestParam 与 @RequestBody 的终极对决,90% 的开发者都踩过这些坑!

在 SpringBoot 开发中&#xff0c;处理 HTTP 请求参数是我们每天都要面对的工作。而RequestParam和RequestBody这两个注解&#xff0c;就像是我们手中的两把利剑&#xff0c;既能高效解决问题&#xff0c;用不好也可能 "误伤" 自己。作为一名资深 Java 开发者&#x…

【Docker】P2 Docker环境构建准备:MacOS 与 Linux

目录操作系统与 Docker 的兼容性分析Docker 技术本质MacOS 环境下的 Docker 构建1. 安装前准备2. Docker Desktop安装3. 镜像加速配置高级操作&#xff1a;文件共享配置Linux 环境下的 Docker 构建卸载历史版本配置软件源Docker 核心组件安装系统服务配置镜像加速器配置应用配置…

OpenCV 发票识别全流程:透视变换与轮廓检测详解

目录 前言 一、核心技术原理&#xff1a;透视变换与轮廓检测 1. 透视变换&#xff1a;让倾斜发票 “正过来” &#xff08;1&#xff09;什么是透视变换&#xff1f; &#xff08;2&#xff09;透视变换的 5 个关键步骤 2. 轮廓检测&#xff1a;精准定位发票区域 &#x…