摘要

https://arxiv.org/pdf/2508.14370
传统的多目标跟踪(MOT)系统主要设计用于行人跟踪，通常对其他物体类别的泛化能力有限。本文提出了一种能够处理多种物体类型的通用跟踪框架，特别强调在复杂交通场景中的车辆跟踪。所提出的1方法包含两个关键组件：(1)一种能够增强严重遮挡物体身份保持能力的遮挡感知重识别机制；(2)一种利用语义场景先验（如车道方向、人行横道和道路边界）来提高轨迹连续性和准确性的道路结构感知轨迹段优化策略。此外，我们引入了一个新的基准数据集，包含具有帧级跟踪标注的多样化车辆类别，专门用于支持车辆跟踪方法的评估。大量实验结果表明，所提出的方法在新引入的数据集和几个公共基准测试上均实现了稳健的性能，突显了其在通用对象跟踪中的有效性。虽然我们的框架是为通用多类别跟踪设计的，但它在传统基准测试上也表现出色，在MOT17和MOT20测试集上分别取得了66.4和65.7的HOTA分数。代码和基准测试可在以下网址获取：https://github.com/Hamidreza-Hashempoor/FastTracker。
索引术语—视觉跟踪

一、引言

多目标跟踪(MOT)在智能监控和自动驾驶等计算机视觉应用中扮演着关键角色。尽管取得了显著进展，但由于目标相似性、频繁遮挡以及物体不断进出场景等因素，它仍然是一个具有挑战性的问题[1]。解决MOT的广泛采用方法是基于检测的跟踪范式[2]，其中目标检测器首先在每一帧中识别候选目标，然后由单独的跟踪模块将这些检测结果与现有轨迹相关联。这种关联通常被表述为匹配问题，依赖于当前检测与现有轨迹段之间的计算相似度。匈牙利算法[3]等算法已被用于有效解决这一分配任务。检测算法还为每个边界框提供置信度分数，反映检测结果为有效目标的可能性。通常，高置信度检测对应于真阳性，而较低分数通常表示假阳性。

一般来说，高置信度检测预期对应于真阳性，而较低分数通常表示假阳性。然而，许多现有基于检测的跟踪框架的性能往往被高估，因为它们主要在单类别场景（最显著的是行人跟踪）上进行基准测试，其中检测器针对该类别进行训练和优化[2]。虽然这种专业化可以产生令人印象深刻的准确性，但它并不能反映现实世界应用中的挑战，在现实应用中必须同时检测和跟踪多种物体类别。当检测模型扩展到处理多个物体类别时，检测准确性通常会下降，导致跟踪性能相应下降[4]。这种差异突显了需要能够很好地泛化到多类别设置并在更现实的部署条件下保持稳健的跟踪解决方案。

基于单类别跟踪的局限性，多类别物体跟踪需要仔细考虑不同类别之间的置信度分布。在实践中，高置信度检测通常更可靠，一般对应于真阳性，而低置信度检测则容易产生假阳性。这种可靠性差异促使级联匹配策略的发展，如ByteTrack[5]中采用的策略，其中高置信度检测在初始匹配阶段被优先考虑，随后将低置信度候选与先前未匹配的轨迹进行选择性匹配。

受此方法启发，我们的跟踪框架引入了一个明确区分高置信度和低置信度检测的两阶段匹配过程。在第一阶段，我们使用宽松的相似度阈值将高置信度检测与活动轨迹段相关联，从而最大化真阳性关联的召回率。在第二阶段，我们使用更严格的相似度约束处理剩余的低置信度检测，确保仅为未匹配的轨迹考虑最合理的关联。
在这里插入图片描述

为了评估检测与轨迹段之间的相似度，我们的方法主要依赖于运动线索，包括空间接近性、边界框几何形状和帧间速度一致性。虽然基于外观的特征在许多跟踪系统中常用于增强遮挡下的鲁棒性，但它们通常需要引入相当大的计算开销的深度卷积网络[6]。这使得它们不太适合实时在线应用。与依赖此类重型模型[7]不同，我们的方法采用两种互补策略来提高挑战性场景中的鲁棒性，而不依赖于基于CNN的重识别网络。首先，我们设计了一个框架来处理遮挡，使物体在暂时消失后能够重新识别。其次，我们利用高级环境上下文（如道路布局、双向交通结构和人行横道）来指导重识别并优化轨迹段。这两个组件显著提高了跟踪可靠性，而不会产生高计算成本。我们的跟踪器与现有方法相比的整体性能趋势，通过多个指标测量，如图1所示。

作为第一个组件，我们通过设计一种不依赖于视觉重识别特征的机制来解决多目标跟踪中的遮挡挑战。当目标暂时从检测中消失时，我们使用其置信度历史和与附近物体的空间交互来推断遮挡事件。在物体被同一类别物体遮挡的情况下，我们提出了一种基于几何重叠的启发式方法来识别被覆盖的目标。我们的方法引入了一种新的覆盖度量，以更准确地检测传统IoU度量失效的遮挡场景，特别是在遮挡物体和被遮挡物体之间存在尺寸差异的情况下。一旦目标被标记为遮挡，我们通过调节速度和尺寸变化来调整其卡尔曼滤波器更新，防止不切实际的漂移并确保重新识别过程中的稳定性。这种策略使在拥挤和动态环境中更可靠的身份保持成为可能。我们提出的遮挡处理的有效性在图2中进行了视觉演示。
在这里插入图片描述

为进一步提高跟踪一致性，我们整合了从周围环境派生的场景级结构先验。特别是，我们将道路和人行横道建模为矩形区域，其中每个区域都用主要入口和出口边缘进行标注。这些边缘对定义了一个预期运动方向，我们用它来估计该区域内物体的轨迹角度阈值。例如，在单向道路上，允许的运动被限制在与交通流对齐的狭窄角度带内；与此角度的显著偏差被视为物理上不可能的。在跟踪过程中，如果轨迹违反此上下文约束，我们将将其投影回允许的运动通道以纠正潜在的漂移。这种投影对于从由遮挡或检测器噪声引起的跟踪故障中恢复特别有用，其中不正确的卡尔曼更新或错误检测通常会导致错位的轨迹。通过强制环境感知的运动一致性，我们在结构化交通场景中实现了更可靠的轨迹段关联并减少了身份切换。

虽然多目标跟踪方面取得了显著进展，但大多数现有基准测试——如MOT17[8]和MOT20[9]——几乎完全专注于行人跟踪。一些数据集针对车辆跟踪[10]-[12]；然而，它们通常涉及少数物体类别，并在相对简单的驾驶环境中捕获，缺乏真实世界交通场景的复杂性，没有不同时段（包括白天和夜晚）各种光照条件下的CCTV视图。为了解决这一差距，我们引入了一个专门设计用于多类别跟踪的新基准，包括城市CCTV视图中的行人和各种类型的车辆。我们的数据集包含多样化的物体类别，如汽车、多种卡车类型、公共汽车、摩托车等，以及复杂城市环境中的行人目标。它捕获了具有频繁遮挡、密集交叉口和多方向物体移动的挑战性场景，为评估多类别跟踪算法提供了一个现实且要求苛刻的设置。通过捕获各种环境中的复杂交互，此基准提供了更现实的评估环境，并鼓励开发超越仅行人设置的跟踪算法，为研究社区提供了宝贵的资源，并促进多类别跟踪领域的进展。

本文的主要贡献总结如下：

我们提出了一个稳健的多类别多目标跟踪框架，能够超越行人跟踪，并在复杂城市环境中对各种车辆类别有效执行。
我们设计了一个轻量级遮挡处理模块，不依赖于外观特征或任何深度重识别网络，仅使用空间线索和几何覆盖来维持轨迹一致性。
我们利用基于道路几何和场景语义（如道路、人行横道）的环境感知约束来强制执行合理的物体运动并提高重识别准确性。
我们发布了一个新的用于多类别车辆和行人跟踪的基准数据集，具有多样化的物体类别和挑战性场景，如CCTV视图中的遮挡和多方向交通流。
我们的方法在MOT16、MOT17和MOT20测试集上取得了强劲性能，HOTA分数分别为66.0、66.4和65.7——在准确性方面优于大多数最先进的跟踪器。

二、相关工作

在基于检测的跟踪范式[5]，[13]-[15]中，首先获得物体检测（通常由深度卷积网络[16]，[17]生成），然后在帧之间关联以形成轨迹。许多框架使用几何和基于外观的线索的组合来计算检测与现有轨迹段之间的相似度。虽然基于外观的特征已被广泛采用，特别是通过深度学习方法如DeepSORT[13]和FeatureSORT[7]或其采用状态空间模型（SSM）[18]的扩展[19]，但它们需要额外的重识别（Re-ID）网络，这显著增加了计算负载和内存使用。这种附加的复杂性通常限制了它们在实时或资源受限应用中的适用性。

相比之下，几种轻量级跟踪方法避免了深度外观模型，而是依赖于手工设计或基于几何的特征，特别是在多类别或多交通环境中，速度和可扩展性至关重要。最著名的例子之一是SORT[3]，它仅使用卡尔曼滤波和通过匈牙利算法的基于运动的关联，提供了令人印象深刻的快速和简单。最近的工作显示了对这种高效设计的重新兴趣。例如，OC-SORT[20]通过改进观测一致性建模增强了传统的仅运动跟踪，而BoT-SORT[21]引入了一个将跟踪逻辑与重型特征提取解耦的模块化框架。这些方法表明，即使没有深度外观嵌入也可以实现稳健的跟踪，特别是当运行时效率是优先考虑时。

对于遮挡处理，虽然ByteTrack等高效方法通过关联低置信度检测来解决部分遮挡，但它们在高度拥挤的场景中性能会下降，在这种场景中，遮挡的检测变得模糊且频繁。为了提高鲁棒性，许多最近的方法使用CNN[22]集成基于外观的重识别特征，这使得在遮挡后能够更好地恢复身份。然而，这些方法产生相当大的计算开销，使它们不太适合实时或资源受限的应用。像PD-SORT[23]和SparseTrack[24]这样的更轻量级替代方案采用纯粹基于几何的策略来处理遮挡，使用从2D边界框派生的伪深度线索。虽然这些模型避免了基于CNN的特征，但它们依赖于相机视点假设和简单的深度启发式方法，这在非理想视角、透视失真或快速场景变化下可能会失败。此外，此类方法中的基于深度的级联关联在目标具有相似深度或长期遮挡导致身份漂移时可能会遇到困难。我们反而提出了一种不依赖于任何特定相机视点假设的遮挡处理机制，并避免强制基于深度的级联匹配，从而减轻了与拥挤场景中透视失真和模糊空间接近性相关的限制。

先前的工作已经探索了使用环境上下文来支持物体跟踪，尽管通常是以有限或间接的方式。例如，[25]和MENet[26]使用预定义的兴趣区域（ROIs）将跟踪限制在可驾驶区域内，有效地丢弃这些区域外的检测。然而，这些方法不会纠正或调整由于噪声或遮挡而超出ROIs的轨迹段。在多摄像机跟踪领域，许多方法利用上下文区域（如入口和出口区域）来指导跨摄像机关联（例如Chai等人[27]），但此类策略通常不会利用细粒度的单摄像机环境布局来优化轨迹。相比之下，我们的方法整合了高级场景结构，如道路方向、双向交通和人行横道，以调整违反可行运动模式的轨迹段。这种环境感知校正是几何驱动的、轻量级的，并且在不依赖于基于CNN的模块的情况下运行，从而在具有复杂布局约束的城市场景中提高了跟踪一致性和减少了ID切换。

几个基准测试已被引入用于车辆或多类别物体跟踪，但每个都有局限性，这在现实世界的城市监控上下文中留下了改进空间。Waymo Open Dataset[11]提供了跨越多个城市的大型LiDAR和相机数据，用于自动驾驶，支持具有高质量标签的多个车辆类别。然而，它主要关注前向车辆安装视图和高速公路场景，这与城市CCTV视图显著不同。KITTI Tracking[10]是另一个广泛使用的基准，具有汽车、行人和骑自行车者的标注，但它在场景多样性、类别多样性和规模方面仍然有限，特别是在拥挤或被遮挡的城市交叉口。LMOT[28]引入了一个具有低光条件的挑战性夜间基准，但它缺乏多类别车辆跟踪和其他光照条件。VETRA[29]提供了引入尺度变化和透视失真的空中车辆跟踪数据，但它仅限于单类别跟踪和俯视视角，这与地面监控系统不太相关。相比之下，我们提出的基准——尽管规模适中——针对多类别跟踪，强调城市CCTV视图，这在现有数据集中代表性不足。它包括多样化的物体类别、各种光照条件和挑战性遮挡场景，如密集交叉口和双向交通。这使其成为开发和评估城市规模监控应用中多目标跟踪器的更现实和实用的资源。

三、方法

为了改进多目标跟踪中的数据关联，我们采用了一种简单而强大的策略，避免直接丢弃低置信度检测。与许多早期方法仅基于置信度阈值过滤检测不同，我们将检测分为高置信度和低置信度两组，类似于Byte tracker。这种分离实现了更灵活和稳健的跟踪：高置信度检测提供强有力的初始关联，而有选择地使用低置信度检测有助于恢复错过的目标并减少身份切换。这种两阶段设计提高了整体召回率而不增加假阳性，尤其是在拥挤或模糊的场景中。

然而，在实践中，严重的遮挡和密集交通仍然会导致关联失败。为了缓解这一点，我们引入了基于空间重叠的显式遮挡检测度量，允许即使没有检测也将遮挡目标标记和处理。我们还整合了环境感知线索——如道路方向性、街道布局和行人区域——来约束和优化运动轨迹，防止在遮挡期间发生不切实际的运动。此外，我们通过应用更具选择性的确认和删除策略修订了轨迹段初始化和删除逻辑。这些变化减少了虚假身份，提高了真实目标的恢复，并确保遮挡物体被单独处理。这些增强一起显著提高了复杂多类别城市场景中的跟踪稳健性。完整的FastTrack算法总结如下。

运动预测。对于每个轨迹段 $t∈Tt\in\mathcal{T}$ ，我们使用类感知卡尔曼滤波器估计其未来状态xt。运动模型参数基于物体类别选择：汽车或摩托车等车辆允许更高的速度和加速度界限，而行人则用更平滑和更慢的动态建模。这使得轨迹预测更加现实，特别是在临时遮挡或检测丢失的情况下。

方向和ROI约束。为了防止轨迹段漂移到不合理的方向，我们使用环境地图M上的区域查找检索围绕预测状态 $x^τ\hat{x}_{\tau}$ 的区域R。每个区域编码语义布局信息——如可驾驶道路或行人路径——并与反映允许方向性的运动圆锥相关联。圆锥角度0基于区域的多边形结构几何计算：我们识别入口和出口边缘（由场景流的先验知识定义），然后构建连接入口边缘的每个角点到出口边缘上对角点的两条对角线。角度θ定义为这两条交叉对角线之间的角度，表示允许的运动范围。函数ProjectToCone $(x^t(\hat{x}_{t}$ ,cone®）将预测位置投影到此方向约束圆锥内。我们在附图3中使用单向道路说明这些概念，尽管相同的逻辑扩展到其他区域类型，如双向道路或人行横道。
在这里插入图片描述

关联。我们采用类似于Byte Tracker的两阶段关联策略。在第一阶段，高置信度检测 $Dhigh\mathcal{D}_{\mathrm{high}}$ 使用IoU-based关联与活动轨迹段T匹配，产生匹配 $(T1,D1)(\mathcal{T}_{1},\mathcal{D}_{1})$ 。未匹配的轨迹段和低分检测 $Tremain\mathcal{T}_{\mathrm{remain}}$ 和 $Dlow\mathcal{D}_{\mathrm{low}}$ ，然后传递到第二阶段，其中 $Tremain\mathcal{T}_{\mathrm{remain}}$ 与低置信度检测 $Dlow\mathcal{D}_{\mathrm{low}}$ 匹配以恢复困难情况 $T2\mathcal{T}_{2}$ ，并将它们从 $Tremain\mathcal{T}_{\mathrm{remain}}$ 中排除。最后，更新的活动集变为 $T=T1∪T2\mathcal{T}=\mathcal{T}_{1}\cup\mathcal{T}_{2}$ 。

遮挡处理。未匹配的轨迹段 $Tremain\mathcal{T}_{\mathrm{remain}}$ 通过测量与活动轨迹段T的空间重叠来检查遮挡。如果中心接近度分数 $CP(t,t′)\mathrm{CP}(t,t^{\prime})$ （通过IoU计算）超过阈值 $CPmin\mathrm{CP}_{\mathrm{min}}$ ，则轨迹段t被视为遮挡并添加到 $Tocc\mathcal{T}_{\mathrm{occ}}$ 。对于每个遮挡轨迹段，我们将其标记为遮挡，抑制其速度以避免向遮挡物体方向传播（这通常会导致漂移），并将边界框放大10-20%（取决于物体类别）以改善未来的重新识别，如图4所示。遮挡轨迹段暂时从进一步的关联步骤中移除，直到它们重新出现。边界框放大和速度抑制的有效性在图5中展示。
在这里插入图片描述

轨迹段初始化和删除。为了维护干净可靠的轨迹段集，我们应用明确的初始化和删除策略。剩余的高置信度检测仅在与现有轨迹段重叠较低时才考虑初始化，即，maxt $KaTeX parse error: Undefined control sequence: \d at position 18: …egin{array}{r}{\̲d̲_{\in\mathcal{T…$ ，确保避免冗余或重复轨迹。另一方面， $Tremain\mathcal{T}_{\mathrm{remain}}$ 中的未匹配轨迹段被删除，除非它们被标记为遮挡。对于遮挡轨迹段，我们允许临时持久性，但如果其遮挡年龄超过阈值 $ToccT_{\mathrm{occ}}$ 则将其删除。此策略确保长期稳健性，同时避免陈旧或虚假轨迹。

后处理。虽然我们的方法设计用于完全在线推理，对后处理的依赖最小，但我们还整合了两种互补的后处理技术以展示其潜在益处。首先，全局链接用于通过利用时空一致性和通过GIAOTracker的[30] IResNet50-TP编码器提取的外观特征来关联碎片化轨迹段，基于余弦相似度进行轨迹段级匹配。其次，应用高斯平滑过程（GSP）[31]通过/对时间上的非线性运动建模来优化轨迹段轨迹。与线性插值不同，GSP结合了过去和未来的观测，提供了对缺失检测的更稳健处理和平滑的轨迹校正。

在这里插入图片描述

四、基准测试

为了全面评估复杂交通场景中的多目标跟踪，我们引入了FastTrack基准测试——一个多样化且具有挑战性的数据集，在几个关键维度上超越了UrbanTracker和CityFlow等现有基准测试。FastTrack包含12个视频中的80万个标注检测，每个视频平均每帧有43.5个物体——比UrbanTracker多5倍以上，比CityFlow多5倍以上——使其特别适合在极端拥挤和交互下评估跟踪器。该数据集涵盖9个交通相关类别，扩展了标签多样性，超越了先前数据集。此外，FastTrack包含12种不同的交通场景，包括多车道交叉口、人行横道、隧道和合并道路，在各种光照条件下，如日光、夜景和强阴影过渡。这些因素引入了频繁且严重的遮挡，挑战跟踪器即使在长期消失期间也能保持身份连续性。与通常具有有限场景类型和低物体密度的现有数据集相比，FastTrack为现代跟踪算法提供了更加现实和详尽的基准测试，特别是那些设计用于城市交通环境部署的算法。基准统计数据和可视化分别在表I和图6中提供。
在这里插入图片描述

五、实验设置

数据集。在我们的实验中，我们使用了四个数据集：MOT16、MOT17、MOT20[1]，[9]和我们引入的基准数据集。MOT16和MOT17包括各种行人跟踪场景，具有静态和移动摄像机，其中MOT17进一步整合了多个检测器输出以进行稳健评估。MOT20呈现更具挑战性的场景，具有极其拥挤的环境和严重的遮挡，测试检测和跟踪性能的极限。除了这些，我们的自定义基准引入了更极端的条件，具有大规模行人-汽车人群、频繁且长时间的遮挡以及视觉杂乱的场景。这些特性导致个体之间显著重叠，超越了现有MOT数据集的视觉复杂性，为评估跟踪算法的现实世界稳健性提供了宝贵的测试平台。

指标。我们使用一系列已建立的指标来评估跟踪性能。这些包括CLEAR指标[32]——如MOTA、假阳性（FP）、假阴性（FN）和身份切换（IDs）——以及IDF1[33]和最近的HOTA指标[34]。虽然MOTA提供了跟踪准确性的总体度量，但IDF1专注于身份关联的质量，HOTA通过联合考虑检测准确性、关联一致性和定位精度提供平衡评估。

实现细节。对于检测，我们采用YOLOX，因为它在速度和准确性之间取得了有效平衡。检测器的分类和定位头按照先前工作[5]，[35]中建立的最佳实践进行训练。在推理时，我们应用0.75的非最大抑制（NMS）阈值。轨迹段关联使用0.5的IoU阈值，并应用指数移动平均（EMA）平滑，动量系数Q为0.8。我们设置 $CPmin\mathrm{CP}_{\mathrm{min}}$ 为0.7，初始化重叠阈值 $K_{i n i t}$ 为0.8，遮挡容忍窗口 $T_{o c c}$ 为30帧。检测置信度分类阈值为 $τlow=0.2\tau_{l o w}=0.2$ 和 $τhigh=0.65\tau_{h i g h}=0.65$ 。兴趣区域M是用户可配置的，如果提供了方向信息，跟踪器会相应调整。

在后处理中，我们将高斯平滑插值（GSP）的最大间隙限制为20帧。对于全局链接，我们使用MARS ReID数据集[36]进行行人训练，使用来自GIAOTracker的车辆ReID数据集进行车辆训练。它使用Adam优化器训练60个周期，使用交叉熵损失函数和余弦退火学习率计划。在推理时，使用15帧的时间阈值和70像素的空间距离上限过滤候选关联。仅接受超过0.9的链接分数。所有实验均在配备NVIDIA RTX 4060 GPU（8GB VRAM）的系统上进行。我们在公共存储库中发布了我们的代码和基准测试。

六、实验

为了评估我们提出的跟踪框架的有效性和稳健性，我们在标准基准测试和内部研究上进行了广泛的实验。首先，我们进行了全面的消融研究，以调查我们管道中每个单独组件的贡献。然后，我们在包括MOT16、MOT17、MOT20和我们新引入的FastTrack基准测试在内的公共多目标跟踪基准测试上展示定量结果。

A. 消融研究

为了更好地理解我们框架中每个核心组件的影响，我们进行了一系列消融研究。具体来说，我们检查了四个方面：（1）删除和初始化策略对维持轨迹一致性的影响，（2）我们的遮挡感知机制在通过临时视觉损失保持身份方面的贡献，（3）整合用户定义的ROI和方向约束（基于圆锥的过滤）的影响，（4）后处理技术（如全局链接和轨迹平滑）的作用，以及（5）检查FastTracker在较轻检测器上的性能。
在这里插入图片描述

删除和初始化策略：如表II所示，单独启用删除或初始化会带来适度的收益，而它们的组合始终产生最佳性能。具体来说，在MOT17上，联合应用这两种策略将MOTA从79.4提高到79.9，HOTA从63.5提高到64.0，绝对增益为+0.5 MOTA和+0.5 HOTA。同样，在MOT20上，我们观察到+0.7 MOTA和+0.5 HOTA的改进。对于更具挑战性的FastTrack数据集，联合配置将MOTA从60.1提高到60.9，HOTA从57.2提高到58.0。这些结果证实了我们提出的删除和初始化策略在增强检测可靠性和身份保持方面的有效性。
在这里插入图片描述

遮挡处理：为了隔离遮挡处理的效果，我们禁用了我们的遮挡感知机制，并恢复到传统策略——在不可见时立即移除轨迹段，并从所有高置信度检测初始化新的轨迹段。如表III所示，整合我们的遮挡感知机制在所有数据集上都带来了显著的性能提升。具体来说，在MOT17上，HOTA提高了2.1分（从63.1到65.2），MOTA提高了1.4分（从79.0到80.4）。在更拥挤的MOT20数据集上，我们的方法将HOTA提高了2.3分，MOTA提高了2.6分。在FastTrack上观察到最大的收益，HOTA提高了3.9分，MOTA提高了4.2分。这些结果突显了在挑战性场景下显式遮挡建模在维持准确身份关联中的关键作用。
在这里插入图片描述

ROI和方向。为了进一步完善结构化场景中的关联过程，我们研究了在FastTrack数据集上整合兴趣区域（ROI）过滤和方向（Dir）约束的影响，如表IV所示。这些评估是在其他模块（包括提出的遮挡处理和删除/初始化策略）的基础上进行的。仅应用ROI约束达到63.5 MOTA / 60.8 HOTA的性能，而仅使用方向约束略微提高分数至63.6 MOTA / 61.0 HOTA。当结合两种约束时，该方法达到最佳结果63.8 MOTA / 61.0 HOTA，展示了适度但一致的收益。

后处理：为了评估后处理阶段的贡献，我们分析了在三个数据集上整合GSP（优于传统插值技术[37]）和全局链接（G-Link）对最终跟踪性能的影响。重要的是，这里报告的所有结果都基于完整的在线系统，包括我们提出的删除/初始化策略和遮挡处理机制。后处理模块在生成初始轨迹后离线应用。如表V所示，单独启用GSP或G-Link都会在基础输出上带来一致的改进，G-Link在HOTA方面略微优于GSP。
在这里插入图片描述

轻量修改版YOLOX的跟踪性能。FastTracker即使与轻量级YOLOX检测器配对也表现出稳健的性能，如表VI所示。随着模型大小从YOLOX-L（61M）减小到YOLOX-Nano（1M），跟踪准确性逐渐下降，但整体保持强劲指标。值得注意的是，YOLOX.M和YOLOX-S分别实现了78.1和74.6的MOTA分数，优于依赖更大检测器和更重重识别模块的几个基线。即使使用YOLOX-Nano，FastTracker也实现了令人信服的68.3 MOTA和71.2 IDF1，使在资源有限的边缘设备上实现实时部署成为可能。这些结果突显了FastTracker在各种检测器容量下的效率和可扩展性。
在这里插入图片描述

B. 基准测试评估

在实验的最后部分，我们在MOT16、MOT17、MOT20和FastTrack上评估了我们提出的跟踪器相对于最先进方法的有效性。为了展示我们的在线跟踪性能，我们将跟踪输出（没有任何后处理，如GSP或G-Link）提交到相应的评估服务器。此设置确保所有报告的结果仅反映我们在线系统的性能，突显了我们的跟踪框架在标准基准测试协议和约束下的优势。
在这里插入图片描述

MOT16和MOT17：表VII展示了官方MOT16基准测试结果。我们的方法FastTracker在所有比较方法中取得了最高分数，MOTA为79.1，HOTA为66.0，超过了最近的最先进方法。与FeatureSORT（MOTA 77.9，HOTA 62.8）相比，我们提高了+1.2 MOTA和+3.2 HOTA。同样，与StrongSORT（MOTA 77.8，HOTA 63.8）相比，我们看到+1.3 MOTA和+2.2 HOTA的增益。值得注意的是，我们还实现了最低数量的身份切换（290），展示了在整个序列中卓越的身份保持。
在这里插入图片描述

表VIII展示了FastTracker在MOT17基准测试上的性能。我们的方法以81.8的MOTA和66.4的HOTA实现了新的最先进水平，明显优于所有先前的跟踪器。与FeatureSORT（MOTA 79.6，HOTA 63.0）相比，我们实现了+2.2 MOTA和+3.4 HOTA的改进。与StrongSORT（MOTA 78.3，HOTA 63.5）相比，增益为+3.5 MOTA和+2.9 HOTA。即使是广泛采用的ByteTrack也表现出较低的性能（MOTA 78.9，HOTA 62.8），差距为+2.9 MOTA和+3.6 HOTA。此外，FastTracker实现了最低数量的身份切换（885）和最低的FN（75162），确认了强大的身份保持和检测质量。
在这里插入图片描述

MOT20：表IX展示了在具有挑战性的MOT20基准测试上的结果。FastTracker在大多数关键指标上取得了最高性能，以MOTA 77.9、HOTA 65.7和IDF1 81.0树立了新的最先进水平。与FeatureSORT（MOTA 76.6，HOTA 61.3，IDF1 75.1）相比，我们看到+1.3 MOTA、+4.4 HOTA和+5.9 IDF1的增益。与ByteTrack（MOTA 75.7，HOTA 60.9，IDF1 74.9）相比，我们的方法提高了+2.2 MOTA、+4.8 HOTA和+6.1 IDF1。值得注意的是，FastTracker还实现了所有跟踪器中最低的身份切换（684），表明即使在极其拥挤的场景中也能稳健地保持身份。这些结果证实，FastTracker通过其遮挡处理能力，在高密度环境中提供了最先进的跟踪性能。
在这里插入图片描述

FastTracker基准测试：表X展示了在FastTracker Benchmark上的结果，这是一个设计用于评估密集跟踪场景中稳健性的挑战性内部基准测试。FastTracker实现了最佳MOTA（63.8）、IDF1（79.2）和HOTA（61.0），在关联准确性方面超过了FeatureSORT和ByteTrack。它还实现了最低数量的身份切换（251），展示了跨帧的强一致性。虽然FastTracker在MOTA（63.8）方面领先，但它还展示了检测和身份保持之间更好的平衡，分别比StrongSORT和FeatureSORT提高+1.3和+3 HOTA，并将IDF1显著提高多达+1.8。这些结果突显了FastTracker在拥挤条件下保持准确身份跟踪的优势。

七、讨论

虽然FastTracker在公共和内部基准测试上表现出强劲性能，但仍然存在一些局限性。目前，该系统依赖于手动定义的ROI区域和圆锥方向约束，必须使用恰好四个边缘指定。这种严格的配置可能会限制在复杂或动态场景中的部署，其中此类注释不切实际或不足。作为未来工作的一个有希望的方向，最近在语义分割和场景理解方面的进展可以被利用来实现道路边界、人行横道和其他上下文线索的自动检测，消除手动设置的需要。此外，将系统扩展到支持任意多边形ROI或更灵活的方向约束将允许在真实世界环境中更广泛的应用，如交叉口、环形交叉口和多车道道路。

八、结论

我们介绍了FastTracker，一种非常快速和轻量级的多目标跟踪器，无需任何基于CNN的重识别网络即可运行。它有效处理遮挡并利用环境感知线索（如空间约束）来提高跟踪准确性。虽然设计用于在线部署，但它也支持可选的后处理以进一步优化。尽管其简单性，FastTracker优于大多数最先进的方法，并适合在资源受限的设备上部署。