摘要
一阶段检测器通常将目标检测形式化为密集的分类与定位(即边界框回归)问题。分类部分通常使用 Focal Loss 进行优化,而边界框位置则在狄拉克δ分布下进行学习。最近,一阶段检测器的发展趋势是引入独立的预测分支来估计定位质量,所预测的质量可以辅助分类,从而提升检测性能。
本文深入研究了这三个基本要素的表示方式:质量估计、分类和定位。我们发现现有方法存在两个问题:
训练与推理阶段中,质量估计与分类的使用不一致(即,训练时分开优化,测试时却组合使用FCOS模型这样做);
定位时采用的狄拉克δ分布不够灵活,无法处理真实场景中常见的模糊性与不确定性。
为了解决上述问题,我们设计了新的表示方式:
将质量估计与分类信息合并到一个分类向量中,使其在训练与推理中一致;
使用向量表示边界框位置的任意分布,从而替代固定的狄拉克δ分布。
这种改进后的表示方式有效避免了训练-测试之间的不一致性,同时能够更准确地表达真实数据中的分布特征。然而,这些改进引入了连续标签,这超出了原始 Focal Loss 的适用范围。
因此,我们提出了一种推广形式的 Focal Loss,称为Generalized Focal Loss(GFL),将其从离散标签拓展到连续形式以适应新的表示方式。在 COCO test-dev 上,我们的 GFL 使用 ResNet-101 骨干网络取得了 45.0% 的 AP,超越了 SAPD(43.5%)与 ATSS(43.6%)等现有最先进方法,并且推理速度更快或相当。我们的最佳模型在单卡单尺度条件下可实现 48.2% 的 AP,并在单张 2080Ti GPU 上以 10 FPS 运行。
代码与预训练模型已发布于:https://github.com/implus/GFocal。
引言(部分)
近年来,密集检测器逐渐成为目标检测的发展趋势,而对边界框及其定位质量估计的表示方式的关注,推动了检测性能的持续提升。当前主流方法将边界框表示为简单的狄拉克δ分布。例如在 FCOS 中,预测额外的定位质量(如 IoU 得分或 centerness 分数)并与分类置信度相乘作为最终评分,在 NMS 时用于排序,这一策略被广泛采用并证明能提高准确率。
尽管上述方法取得了成功,但我们发现以下两个关键问题:
训练和推理阶段的不一致性:
定位质量估计与分类得分在训练中是独立优化的,但在推理阶段却被组合使用(例如相乘);
当前