自监督学习在合成孔径声呐目标识别中的应用
BW Sheffield
美国巴拿马城海军水面作战中心
1 引言
在自主水下航行器(AUVs)中应用计算机视觉面临着独特的挑战,因为海洋环境往往条件不可预测且极为严苛。传统计算机视觉研究主要依赖光学相机成像,而在光照不足、悬浮沉积物及水体浑浊的水下环境中难以适用。因此,声呐成像,尤其是其衍生技术——合成孔径声呐(SAS),成为水下成像的首选。搭载SAS的AUV能够扫描海底生成高分辨率图像,其细节表现远超其他类型的声呐。然而,SAS图像虽然细节丰富,但数据量巨大,给标注工作带来了极大挑战,而标注又是训练深度神经网络(DNN)不可或缺的一步。
与传统机器学习方法相比,DNN因其能够自主从数据中学习特征而受到广泛关注,无需专家手工设计特征。然而,DNN的显著限制在于其对大规模标注数据和强大计算资源的依赖。在SAS领域,不仅标注数据稀缺,且获取难度远高于传统相机图像。
近年来,随着计算能力和数据量的增长,自监督学习(SSL)逐渐兴起。SSL无需标签即可让模型从数据中学习特征,因而为解决SAS数据标注不足问题提供了潜在途径。本研究旨在评估两种主流SSL算法——MoCov2 [1] 和 BYOL [2],与经典监督学习模型ResNet18 [3]在二分类SAS图像识别任务上的表现(如图1所示)。SSL模型在真实世界SAS数据上进行预训练,以学习有用特征,并与监督学习基准进行对比。