Title
题目
DeepSPV: A deep learning pipeline for 3D spleen volume estimation from 2D ultrasound images
DeepSPV:一个用于从二维超声图像进行三维脾脏体积估算的深度学习流程
01
文献速递介绍
1.1 临床背景 脾肿大,即脾脏增大,是多种潜在疾病的重要临床指标,比如镰状细胞病(SCD)(Inusa等人,2016年) 。在患有SCD的儿科患者中,脾肿大可能伴随急性脾隔离症,此时过多血细胞滞留脾脏,导致循环血容量和血红蛋白大幅下降(Brousse等人,2014年) 。若未及时干预,这种情况可能危及生命 。其他临床疾病,像癌症(McCormick和Murphy,2000年)、血液病(Pozo等人,2009年)以及感染性疾病(Mahmoud和Woodruff,1972年),也会引发脾肿大 。所以,对于SCD及其他疾病,脾脏大小测量常作为确定患者诊疗方案的辅助依据 ,这就需要能精准测量脾脏大小、识别脾肿大的方法 。 ### 1.2 挑战 临床中,检测脾肿大常用初步方法是人工触诊 。若脾脏可在左肋缘下摸到,就怀疑肿大 。过去人工触诊结果被当作脾脏肿大依据(Schloesser,1963年),但后续研究发现,经影像学评估,多达16%可触及的脾脏实际大小正常(Arkles等人,1986年) 。而且,人工触诊粗略、无法量化,只能初步判断是否需进一步影像学检查 。 超声(US)是检测脾肿大最常用的影像学手段,临床体检中常继人工触诊后安排 。它在多数临床场景易获取,无创且便携 。从二维冠状面超声图像能测量脾脏长度,因与脾脏体积相关性好(Lamb等人,2002年 ),常作为衡量脾脏整体大小的指标(Pozo等人,2009年 )。但即便有此相关性,脾脏长度仍属替代指标,脾脏体积才是脾脏大小评估的金标准 。此外,除判断脾肿大外,脾脏体积在确定相关疾病严重程度、指导治疗规划方面,也是更优指标(Kotlyar等人,2014年;Koga等人,2016年;Khoshpouri等人,2018年 )。 计算机断层扫描(CT)、磁共振成像(MRI)这类三维成像手段,被视作脾脏体积测量的金标准方法(Yetter等人,2003年;Holmström等人,2022年;Paul等人,2017年;Holmström等人,2022年 ) 。基于CT或MRI检查,可通过手动分割脾脏计算体积,但这种方法极其耗时 。更常用的是,先手动测量脾脏维度,再用Prassopoulos等人(1997年)提出的线性回归公式估算 。也有基于深度学习的框架,用于从三维CT和MRI中分割脾脏(Ahn等人,2020年;Moon等人,2019年;Humpire - Mamani等人,2020年;Altini等人,2022年;Meddeb等人,2021年;Altini等人,2022年;Huo等人,2018年 ),辅助脾脏体积测量 。然而,CT涉及电离辐射,在世界很多地方,为估算脾脏大小做CT不现实;因运动伪影问题,获取可靠MRI图像也常具挑战 。而且,3D成像设备昂贵,安装和维护复杂,在SCD相关脾肿大高发地区(即“全球南方” ),获取难度大(Piel等人,2013年;Grosse等人,2011年 )。 三维超声成像有望直接提供体积测量,但虽已成功用于下肢肌肉等浅表、静态解剖结构(Al Chanti等人,2021年;Huet等人,2024年 ),获取整个脾脏的高质量3D超声图像仍具挑战 。主要因肋骨遮挡,还有膈肌或胃肠气体干扰,影响图像质量 。另外,受声窗限制,单视图下不总能完整成像整个脾脏 。肝脏等大器官的3D超声成像也有类似难题(Treece等人,2001年 ) 。3D超声可通过扫查2D超声采集或徒手2D超声图像合成实现 。传统重建方法有依赖外部跟踪系统的基于传感器方法(Rohling等人,1999年;Daoud等人,2015年;Wen等人,2013年 ),以及Gee等人(2006年 )的无传感器方法 。深度学习的最新进展,如Luo等人(2023年 )、Yeung等人(2024年 )、Gaits等人(2024年 )所示,通过端到端训练和推理,进一步助力徒手2D超声重建 。但从不同角度获取多张(两张以上 )2D超声图像用于后续3D重建,仍因呼吸或整体运动伪影,以及上述影响3D超声采集的限制因素而具挑战 。这些限制让收集一系列质量稳定的2D超声图像用于可靠3D重建,难以实现 。 鉴于这些限制,2D超声成像仍是当前临床脾脏评估工作流程的标准手段(Lamb等人,2002年 ) 。因3D超声和从2D超声进行3D重建不切实际,脾脏体积可基于冠状面和横断面2D超声测量值,用线性回归公式估算,包括标准长椭球公式(De Odorico等人,1999年;Chow等人,2016年 )或其修正版(Yetter等人,2003年 ) 。这些方法已用于临床实践,但准确性和稳健性很大程度依赖观察者经验 。而且,在SCD高发的低收入和中等收入国家,这类专业技能常匮乏 。所以,从2D超声图像测量脾脏长度,仍是脾脏大小评估最广泛采用的方法,脾脏体积作为生物标志物的临床价值,也仍待深入研究 。 ### 1.3 研究动机与贡献 考虑到CT、MRI和3D超声存在的挑战,我们总体目标是开发一个流程,能从采用标准临床视图获取的2D超声图像中,直接估算脾脏体积,与当前脾脏大小检查的临床工作流程契合 。这里“标准临床视图”,指超声检查中常规获取的冠状面和横断面视图 。 我们提出DeepSPV,这是一个新颖的基于深度学习的流程,用于从单视图(冠状面 )或双视图(冠状面和横断面 )2D超声图像,精准估算脾脏体积 。该流程包含两部分:一是从2D超声图像自动分割脾脏,二是从分割结果估算体积 。我们用从CT图像(含真实脾脏体积标注 )通过超声语义扩散模型(USDM )生成的高真实感合成超声图像数据集,在单视图条件下成功评估了整个流程 。据我们所知,这是首项利用深度学习从2D超声图像估算脾脏体积的研究 。 这项工作的主要贡献可总结为: 1. 提出一种新颖的基于变分自动编码器(VAE )的框架,能从单张或两张2D脾脏分割结果中,自动估算3D脾脏体积 。 2. 在框架内提出并评估三种不同的体积估算方法 。 3. 除体积估算外,我们的框架还能估算置信区间,提供一定程度的可解释性,以支持实际临床场景中的决策 。 4. 生成并公开一个带真实脾脏体积标注的高真实感合成超声图像数据库 。 5. 利用该数据库,在单视图条件下成功评估整个流程,实现的体积估算精度,超过人类专家用相同数据的表现 。
Abatract
摘要
Splenomegaly, the enlargement of the spleen, is an important clinical indicator for various associated medical conditions, such as sickle cell disease (SCD). Spleen length measured from 2D ultrasound is the most widely used metric for characterising spleen size. However, it is still considered a surrogate measure, and spleen volume remains the gold standard for assessing spleen size. Accurate spleen volume measurement typically requires 3D imaging modalities, such as computed tomography or magnetic resonance imaging, but these are not widely available, especially in the Global South which has a high prevalence of SCD. In this work, we introduce a deep learning pipeline, DeepSPV, for precise spleen volume estimation from single or dual 2D ultrasound images. The pipeline involves a segmentation network and a variational autoencoder for learning low-dimensional representations from the estimated segmentations. We investigate three approaches for spleen volume estimation and our best model achieves 86.62%/92.5% mean relative volume accuracy (MRVA) under single-view/dual-view settings, surpassing the performance of human experts. In addition, the pipeline can provide confidence intervals for the volume estimates as well as offering benefits in terms of interpretability, which further support clinicians in decision-making when identifying splenomegaly. We evaluate the full pipeline using a highly realistic synthetic dataset generated by a diffusion model, achieving an overall MRVA of 83.0% from a single 2D ultrasound image. Our proposed DeepSPV is the first work to use deep learning to estimate 3D spleen volume from 2D ultrasound images and can be seamlessly integrated into the current clinical workflow for spleen assessment. We also make our synthetic spleen ultrasound dataset publicl
脾肿大(splenomegaly),即脾脏增大,是多种相关疾病的重要临床指标,比如镰状细胞病(SCD)。通过二维超声测量脾脏长度,是表征脾脏大小最常用的指标,但这只是一种替代测量方式,而脾脏体积才是评估脾脏大小的“金标准” 。精确测量脾脏体积通常需要CT(计算机断层扫描)或MRI(磁共振成像)这类三维成像手段,然而这些检查并非广泛可用,在镰状细胞病高发的“全球南方”(Global South )地区尤其如此。 在本研究中,我们开发了深度学习流程DeepSPV,仅用单张或两张二维超声图像,就能精准估算脾脏体积 。该流程先借助分割网络与图像编码器,学习超声图像低维特征表示,再通过三种方法实现体积估算。在单视图/双视图设置下,最优结果达到了86.62%/92.5%的平均相对体积准确率(MRVA),超过专业人员水平。此外,流程还能给出体积估算的置信区间,增强可解释性,辅助判断脾肿大时的临床决策 。 我们用扩散模型生成的高真实感合成数据集评估整个流程,单张二维超声图像输入时,总体MRVA达83.0% 。提出的DeepSPV,是首个利用深度学习从二维超声图像估算三维脾脏体积的方法,可无缝融入现有临床脾脏评估流程。我们也公开了合成脾脏超声数据集 。 (说明:“Global South” 是一个地缘政治概念,常指经济欠发达、在全球发展中处于相对边缘地位的地区,翻译时保留原文突出语境;专业医学表述如 “mean relative volume accuracy(MRVA)” 等,采用业内通用译法 )
Method
方法
In this section, we present the details of our DeepSPV for automated estimation of volume from 2D single- or dual-view spleen US images. Fig. 1 provides an overview of the DeepSPV pipeline (see blue dotted frame) and the generation of synthetic US data for pipeline evaluation. The pipeline consists of a deep learning-based spleen segmentation model followed by a VAE-based volume estimation model. Note that due to the lack of paired 2D US images and corresponding ground truth volumes, we utilised 3D manual spleen segmentations from a CT dataset to develop and evaluate our proposed methods. Details of this dataset are provided in Section 4.1.1. We start by providing a brief description of the 2D US image segmentation model in Section 3.1. Then, we describe the VAE-based model for automated estimation of volume from single- or dual-view 2D spleen segmentations, in which we propose three different methods for volume estimation. Finally, Section 3.3 details our USDM, which is used to generate a synthetic US dataset for developing and evaluating the pipeline.
在本节中,我们将详细介绍用于从二维单视图或双视图脾脏超声图像自动估算体积的DeepSPV。图1展示了DeepSPV流程(见蓝色虚线框 )以及用于流程评估的合成超声数据的生成情况。该流程由基于深度学习的脾脏分割模型和基于变分自动编码器(VAE )的体积估算模型组成。需要注意的是,由于缺乏配对的二维超声图像及相应的真实体积标注,我们利用来自CT数据集的三维手动脾脏分割结果来开发和评估我们提出的方法。关于该数据集的详细信息将在4.1.1节中提供。我们首先在3.1节中简要介绍二维超声图像分割模型。然后,描述基于VAE、从单视图或双视图二维脾脏分割结果自动估算体积的模型,其中我们提出了三种不同的体积估算方法。最后,3.3节详细介绍我们的超声语义扩散模型(USDM ),该模型用于生成用于开发和评估流程的合成超声数据集。
Conclusion
结论
In this work, we have proposed DeepSPV, consisting of a 2D US segmentation model and a volume estimation model, to estimate the spleen volume from 2D spleen US images. To the best of our knowledge, this is the first work employing 2D US for 3D spleen volume estimation and has surpassed human expert level and existing reconstruction-based and regression-based methods in spleen volume estimation.
在这项工作中,我们提出了DeepSPV,它由二维超声分割模型和体积估算模型组成,用于从二维脾脏超声图像中估算脾脏体积。据我们所知,这是首次利用二维超声进行三维脾脏体积估算的研究,并且在脾脏体积估算方面超越了人类专家水平以及现有的基于重建和基于回归的方法。
Results
结果
5.1. Evaluation metrics To evaluate the performance of the segmentation network, we adopted the Dice score. We also computed the Hausdorff distance (HD) between the predicted segmentation contour and the ground truth segmentation contour. To evaluate the performance of the proposed models for spleen volume estimation, we calculated the mean relative volume accuracy (MRVA), as defined in Eq. (7). ?????? ?? = 1 ?? ∑?? ??=1 ⎛ ⎜ ⎜ ⎝ 1 − | | | ??̂???? ?? − ?????? ?? | | | ?????? ?? ⎞ ⎟ ⎟ ⎠ × 100% (7)
5.1 评估指标 为评估分割网络的性能,我们采用了Dice分数,并计算了预测分割轮廓与真实分割轮廓之间的豪斯多夫距离(HD)。 对于脾脏体积估算模型的性能评估,我们计算了平均相对体积准确率(MRVA),其定义如公式(7)所示: [ \text{MRVA} = \frac{1}{n} \sum{i=1}^{n} \left( 1 - \frac{\left| \hat{V}i - V_i \right|}{V_i} \right) \times 100\% \tag{7} ] 其中,(n)为样本总数,(\hat{V}_i)为第(i)个样本的预测体积,(V_i)为真实体积。该指标通过计算预测值与真实值的相对误差均值,量化了体积估算的准确性。
Figure
图
Fig. 1. An overview of this study. It first involves generating synthetic US images with the USDM, which is necessary due to the lack of paired 2D US images and ground truth volumes. The complete DeepSPV pipeline, proposed to estimate spleen volume from 2D US images, is enclosed within the blue dotted frame and consists of two parts: segmentation and spleen volume estimation. USDM: ultrasound semantic diffusion model. RVAE: end-to-end regression VAE. SPV: spleen volume. Tr/Val/Ts: training/validation/test.
图1. 本研究概述。首先需要利用超声语义扩散模型(USDM)生成合成超声图像,这是由于缺乏配对的二维超声图像和真实体积标注。用于从二维超声图像估算脾脏体积的完整DeepSPV流程包含在蓝色虚线框内,其由两部分组成:脾脏分割和体积估算。USDM:超声语义扩散模型;RVAE:端到端回归变分自动编码器;SPV:脾脏体积;Tr/Val/Ts:训练/验证/测试。
Fig. 2. An illustration of the proposed VAE-based framework. The latent space distribution is parameterised by the mean ?? and standard deviation ??, which is shown in the blue dotted frame. The spleen volume is estimated from this distribution. The basic residual block is shown in the black dotted frame. All our VAE-based models were trained with either a coronal slice (single view) or a channel-wise concatenation of a coronal slice and a transverse slice (dual views). SPV: spleen volume
图2. 所提出的基于变分自动编码器(VAE)框架的示意图。潜在空间分布由均值μ和标准差σ参数化(如蓝色虚线框所示),脾脏体积(SPV)由此分布估算得出。黑色虚线框内为基础残差块结构。所有基于VAE的模型均采用冠状面切片(单视图)或冠状面与横断面切片的通道级拼接(双视图)进行训练。
Fig. 3. Illustration of three proposed VAE-based methods: (a) Nearest neighbour searching in the latent space (NN). (b) Post linear regression of latent representations (PLR). (c) End-to-end regression VAE (RVAE).
图3. 三种基于变分自动编码器(VAE)方法的示意图: (a)潜在空间最近邻搜索(NN); (b)潜在特征后线性回归(PLR); (c)端到端回归变分自动编码器(RVAE)。
Fig. 4. US images and their corresponding US layouts. The top row displays the original US images while the bottom row presents their corresponding US layouts. Each column refers to a specific case
图4. 超声图像及其对应超声布局。顶行显示原始超声图像,底行展示对应的超声布局,每列对应一个特定病例。
Fig. 5. Illustration of the synthetic US layout creation process. The diagram shows how 2D CT spleen segmentations were rotated and aligned with real US cones under expert guidance to emulate realistic clinical acquisition. Specifically, to match the typical leftsided relative location of US probes to the patient in a US examination, the spleen segmentation from CT was rotated 90 degrees anti-clockwise and manually overlaid with an appropriately sized US cone by a human expert.
图5. 合成超声布局创建过程示意图。该图展示了在专家指导下,如何将二维CT脾脏分割结果进行旋转并与真实超声声束锥对齐,以模拟真实临床采集过程。具体而言,为匹配超声检查中探头相对于患者的典型左侧位置,需将CT脾脏分割结果逆时针旋转90度,并由专家手动叠加适当大小的超声声束锥。
Fig. 6. (a) US Semantic Diffusion Model (USDM). The framework transforms the noise from a standard Gaussian distribution to a realistic image through an iterative denoising process guided by the US layout ??. (b) Semantic Diffusion Encoder Resblock (SDER) and Semantic Diffusion Decoder Resblock (SDDR). (c) The detailed architecture of the USDM.
图6. (a) 超声语义扩散模型(USDM)。该框架通过由超声布局条件引导的迭代去噪过程,将标准高斯分布的噪声转换为真实图像。(b) 语义扩散编码器残差块(SDER)和语义扩散解码器残差块(SDDR)。(c) USDM的详细架构。
Fig. 7. Two example CT volumes (top and bottom rows) with associated ground truth spleen segmentations and the selected coronal and transverse 2D segmentation slices. (a) Coronal view of CT volume with spleen segmentation in red. (b) Transverse view of CT volume with spleen segmentation in red. (c) Selected coronal 2D segmentation slice with largest cross-sectional area. (d) Selected transverse 2D segmentation slice with largest cross-sectional area.
图7. 两例CT体积(上下两行)及其相关的脾脏真实分割和选定的冠状面与横断面2D分割切片 (a)CT体积的冠状面视图,红色为脾脏分割区域; (b)CT体积的横断面视图,红色为脾脏分割区域; (c)选定的最大横截面积冠状面2D分割切片; (d)选定的最大横截面积横断面2D分割切片。
Fig. 8. Illustration of manual measurements from CT images for spleen volume estimation. (a) Coronal view. The spleen length (L) is obtained by multiplying the spacing of the coronal plane by the number of contiguous slices that contain the spleen along the transverse axis. (b) Transverse view. The maximal width (W) is obtained by finding the largest diameter on any transverse slice (see distance between ab). The thickness at hilum (Th) is determined by the thickness of the spleen at hilum and perpendicular to the spleen width (see distance between cd).
图8. 从CT图像手动测量脾脏体积的示意图 (a)冠状面视图:脾脏长度(L)通过冠状面间距乘以横轴上包含脾脏的连续切片数量获得; (b)横断面视图:最大宽度(W)为任意横断面切片上的最大直径(见ab间距离),脾门厚度(Th)为脾门处垂直于宽度的脾脏厚度(见cd间距离)。
Fig. 9. Robustness of single-view volume estimation to coronal in-plane rotational errors.
图 9. 单视图体积估算对冠状面平面内旋转误差的鲁棒性
Fig. 10. Robustness of dual-view volume estimation to coronal and transverse in-plane rotational errors.
图 10. 双视图体积估算对冠状面和横断面平面内旋转误差的鲁棒性 。
Fig. 11. Illustration of the test latent spaces of NN trained with single-view data or dual-view data. We sampled 5 points along the line of the principal axis, and decoded the samples to spleen segmentations, as depicted below the 2D latent maps. The colours indicate estimated spleen volume according to the colour scales shown. The dots are normal spleen cases, and crosses are splenomegaly cases (i.e., with ground truth volume value greater than 314.5 mL).
图11. 单视图与双视图数据训练的NN模型测试潜在空间示意图 沿主轴采样5个点并解码为脾脏分割(见2D潜在空间图下方),颜色根据右侧色标表示估算的脾脏体积。圆点为正常脾脏病例,叉号为脾肿大病例(真实体积>314.5 mL)。
Fig. 12. Illustration of the test latent spaces of RVAE trained with single-view data or dual-view data. We sampled 5 points along the line of the principal axis, and decoded the samples to spleen segmentations, as depicted below the 2D latent maps. The colours indicate estimated spleen volume according to the colour scales shown. The dots are normal spleen cases, and crosses are splenomegaly cases (i.e., with ground truth volume value greater than 314.5 mL).
图12. 单视图与双视图数据训练的RVAE模型测试潜在空间示意图 沿主轴采样5个点并解码为脾脏分割(见2D潜在空间图下方),颜色根据右侧色标表示估算的脾脏体积。圆点为正常脾脏病例,叉号为脾肿大病例(真实体积>314.5 mL)。
Fig. 13. Examples of real US images, synthetic US images generated from real US layouts, and the corresponding real US layouts. Below are shown synthetic US images and the corresponding synthetic US layouts, which were manually created based on 2D CT spleen segmentations.
图13. 真实超声图像、基于真实超声布局生成的合成超声图像及其对应真实超声布局示例 下方展示了基于二维CT脾脏分割手动创建的合成超声图像及其对应合成超声布局。
Table
表
Table 1 The breakdown of the data used in the experiments to validate the full volume estimation pipeline. Tr: training. Val: validation. Ts: test. Pre-tr: pre-training. Inf: inference.
表1 用于验证完整体积估算流程的实验数据分类 Tr:训练;Val:验证;Ts:测试;Pre-tr:预训练;Inf:推理。
Table 2 Comparison of results between NN, LR, RVAE, VGG-16, DenseNet-121, ResNet-18, and Pix2Vox++ trained on coronal single-view data and dual view (coronal and transverse) data. Human Experts refers to spleen volume estimated using manual linear regression. Mean relative volume accuracy (MRVA) and standard deviation (STD). R: Pearson’s correlation coefficient. SEN: sensitivity. SPE: specificity. ACC: accuracy. Best results are in bold.
表2 基于冠状面单视图和双视图(冠状面+横断面)数据训练的NN、LR、RVAE、VGG-16、DenseNet-121、ResNet-18及Pix2Vox++模型结果对比 “人类专家”指使用手动线性回归估算的脾脏体积。指标包括平均相对体积准确率(MRVA)及标准差(STD)、皮尔逊相关系数(R)、灵敏度(SEN)、特异度(SPE)和准确率(ACC)。最佳结果以粗体显示。
Table 3 The results for model RVAE-CI. MRVA: mean relative volume accuracy. STD: standard deviation; R: Pearson’s correlation coefficient; MCIA: mean confidence interval accuracy; SEN: sensitivity; SPE: specificity; ACC: accuracy.
表3 RVAE-CI模型结果 MRVA:平均相对体积准确率;STD:标准差;R:皮尔逊相关系数;MCIA:平均置信区间准确率;SEN:灵敏度;SPE:特异度;ACC:准确率。
Table 4 Dice scores and HD for U-Net segmentation results on the test set of real US images, as well as results specific to synthetic US images generated using real US layouts and synthetic US layouts, respectively.
表4 U-Net分割模型在真实超声图像测试集上的Dice分数和豪斯多夫距离(HD),以及分别基于真实超声布局和合成超声布局生成的合成超声图像的分割结果
Table 5 MRVA for volume estimation from single-view synthetic US images using the full DeepSPV pipeline. For comparison, we also include results from our best-performing baseline model (ResNet-18, denoted as ‘Baseline’ below) and manual estimations by human experts.
表5 利用完整DeepSPV流程从单视图合成超声图像估算体积的MRVA 为作对比,表中还纳入了表现最佳的基线模型(ResNet-18,以下称“Baseline”)及人类专家手动估算的结果。