随便记录一下最近阅读的几篇论文

1. Does DINOv3 Set a New Medical Vision Standard?

第一章动机 (Motivation)

自然图像领域的成功范式：大型语言模型（LLMs）和视觉基础模型（如 DINO 系列）证明，通过自监督学习（SSL）在海量无标注数据上进行预训练，可以学习到极其强大且通用的表征能力，并遵循显著的“缩放定律”（模型越大、数据越多，性能越好）。

医学影像领域的独特挑战：

数据稀缺与获取困难：医学数据标注成本极高，且受隐私、法规限制，难以构建大规模数据集。
模态极度多样化：包括 2D（X光、病理切片）、3D（CT、MRI）、灰度图、RGB图像等多种成像技术，每种都需要不同的视觉理解能力。
对细微特征敏感：诊断依赖于捕捉图像中微小、细微的异常模式，因此对视觉表征的质量要求极高。

核心矛盾与问题： 医学领域亟需一个强大的、现成的（off-the-shelf）视觉特征提取器，但受限于上述挑战，很难从头训练一个大规模医学视觉基础模型。那么，一个直接的问题是：在自然图像上训练出的顶尖模型，其能力能否直接迁移到医学领域？ 这就引出了论文要探究的几个根本性问题。

第二章论文基准测试设置 (Benchmark Setup)

1. 2D医学图像分类 (2D Medical Image Classification)

任务描述：处理二维平面图像进行诊断分类。
方法：直接将2D图像输入DINOv3编码器，获取图像级特征后进行线性分类或更复杂的下游训练。

使用的数据集与评估协议：

数据集	模态	内容与规模	任务	评估协议
NIH-14	胸部X光	112,120张图像，30,805名患者	14种胸廓疾病的多标签分类	严格遵守官方提供的患者划分
RSNA-Pneumonia	胸部X光	29,700张图像	肺炎分类（二分类）	遵循MGCA论文提出的标准化数据划分方法
Camelyon16	病理WSI (RGB)	399张淋巴结切片	乳腺癌转移检测（肿瘤 vs. 正常）	1. 官方划分（270训练/129测试） 2. 多折交叉验证 on test set 3. 在Camelyon17上测试泛化能力（跨中心）
Camelyon17	病理WSI (RGB)	多中心数据集，500张切片（100名患者）	作为域外泛化测试集	使用其官方训练集作为测试集（因官方测试标注未公开），评估从Camelyon16训好的模型在Unseen子集上的表现
BCNB	病理WSI (RGB)	1,058名患者的早期乳腺癌活检切片	5项预测任务： - 腋窝淋巴结(ALN)转移状态 - 分子状态（ER, PR, HER2, Ki67）	5折交叉验证，每折内按 7:1:2 划分训练/验证/测试集。使用CLAM方法提取图像块（~968 patches/WSI）

2. 3D医学图像分类 (3D Medical Image Classification)

任务描述：对三维体积数据（如CT、MRI）进行整体分类。核心方法：采用 “切片级特征提取 + 聚合” 策略：
独立处理：将3D体积的每一个2D切片分别输入DINOv3 backbone，得到每个切片的特征嵌入（embedding）。
特征聚合：将所有切片的特征通过平均池化（Mean Pooling）聚合为一个代表整个体积的特征向量。
下游分类：用聚合后的特征训练分类器。

使用的数据集与评估协议：

数据集	模态	内容与规模	任务	评估协议
CT-RATE	非增强CT	47,000个CT体积，20,000名患者	18种临床异常的多标签二分类	使用官方数据划分。采用两种下游评估方法： 1. 零样本 k-NN 2. 线性探测（Linear Probing）

3. 3D医学图像分割 (3D Medical Image Segmentation)

任务描述：在三维体积数据上进行体素级的预测，以分割解剖结构或病变。
核心方法：采用 “逐片特征提取 + 伪3D重构” 策略
逐片处理：将3D体积的每一个2D切片分别输入DINOv3，并保留完整的2D特征图（而非图像级嵌入）。
构建伪3D特征体积：将所有2D特征图沿切片方向堆叠，形成一个3D的特征体积
轻量级分割头：将这个伪3D特征体积输入一个轻量的3D分割头（如UNet式 decoder），最终生成体素级预测。

使用的数据集与评估协议：

数据集	模态	内容与任务	评估协议
Medical Segmentation Decathlon (MSD)	CT, MRI	10个不同的3D分割任务，涵盖脑肿瘤、心脏、肝脏、海马体、前列腺、肺、胰腺、肝血管、脾脏和结肠	官方评估平台已关闭，采用 5折交叉验证。遵循此前工作的标准协议（体积标准化、随机旋转/翻转等数据增强）
CREMI	电子显微镜(EM)	3个子集（A,B,C），难度递增，用于神经元分割	每个子集：前100张切片训练，后25张测试
AC3/AC4	电子显微镜(EM)	两个密集标注的EM体积，用于神经元分割	在AC4（前80切片）上训练，在AC3（前100切片）上测试 -> 测试域外泛化
AutoPET-II	PET/CT	1,014个全身PET/CT扫描，用于肿瘤病灶分割	使用官方划分的训练/验证集。强度标准化，使用随机旋转/翻转等数据增强
HECKTOR 2022	PET/CT	882个头颈部PET/CT扫描，用于原发灶(GTVp)和淋巴结(GTVn)肿瘤分割	遵循官方挑战协议和预处理流程（图像配准、强度标准化）

实验baseline model设置

模型	参数量	预训练数据	数据类型	数据模态	学习范式
BiomedCLIP	86M	1500万图像-文本对	2D 图像-文本	多样生物医学图像	文本监督
CT-CLIP	86M	5万体积+报告	3D 体积-文本	胸部CT	文本监督
UNI	304M	1亿图像块	2D 图像块	头部/腹部/胸部CT	视觉自监督
CONCH	86M	117万 2D 块-文本对	2D 块-文本	病理学	文本监督
DINOv3-S/B/L	22M/86M/304M	17亿自然图像	2D 图像	自然图像	视觉自监督

第三章实验结论分析

任务类别	具体任务与数据集	实验结论	原因分析
2D分类	胸部X光分类 (NIH-14, RSNA-Pneumonia)	表现出色，确立新基线。DINOv3-L在NIH-14上AUC 0.7865，超越医学专用模型BiomedCLIP (0.7771)。在RSNA上与BiomedCLIP性能接近。	DINOv3从自然图像中学到的物体结构和形状表征能力，与X光片中基于宏观结构异常进行诊断的模式高度吻合。
2D分类	病理切片(WSI)分类 (Camelyon16, Camelyon17, BCNB)	性能显著落后。AUC (~0.84) 远低于病理专用模型UNI和CONCH (AUC >0.96)，仅与ResNet50相当。泛化能力差。	病理分析依赖细粒度的纹理和细胞模式，与DINOv3关注的“物体”级特征不匹配。表明领域专业化预训练绝对必要。
3D分类	3D CT体积分类 (CT-RATE)	性能卓越，显著超越基线。DINOv3-B (线性探测) AUC 0.798，显著高于专用基线CT-CLIP (0.731)。	DINOv3的2D特征通过切片平均池化聚合后，能有效表征整个3D体积，捕捉与诊断相关的视觉模式。
3D分割	多器官分割 (MSD)	都是物体级别特征，表现尚可但平庸。为自监督方法设立新SOTA基线，但整体性能(71% Dice)远低于全监督nnU-Net (81.4% Dice)。在个别任务(肺、脾)上达到最佳。	简单的“冻结主干+逐片处理”策略不足以击败端到端训练的复杂3D架构。但其强大的2D特征是一个“不错的起点”。
3D分割	神经元分割 (EM: CREMI, AC3/4)	灾难性失败。误差指标(VOI, ARAND)比经典方法高出十倍以上。	DINOv3特征缺乏高频纹理细节，无法描绘神经元间错综复杂的边界。自然图像与EM图像领域差距过大。
3D分割	肿瘤分割 (PET/CT: AutoPET-II, HECKTOR)	性能极差。Dice分数极低(<15%)，远低于现有模型(>50%)。	DINOv3特征适用于解剖结构，但无法解读PET数据中的功能性代谢信息。这是与自然图像模式的根本性背离。
缩放定律	所有任务	缩放定律不一致且不可靠。性能不随模型变大(S->B->L)或分辨率提高而单调增加。最佳模型规模因任务而异。	自然图像与医学图像存在领域差距。简单地堆砌计算资源不能解决所有问题，必须为不同任务仔细选择模型规模和分辨率。