目标检测公开数据集全解析：从经典到前沿

一、引言

目标检测（Object Detection）是计算机视觉领域的核心任务之一，旨在在图像或视频中识别并定位感兴趣的物体。与图像分类不同，目标检测不仅需要判断物体的类别，还需要确定其在图像中的位置（通常以边界框或分割掩码的形式）。近年来，深度学习技术尤其是卷积神经网络（CNN）和 Transformer 架构的快速发展，使目标检测在多个领域取得了突破性进展。

然而，深度学习模型的成功离不开数据。正如一句经典的话所说：“数据是新的石油”，对于目标检测来说，大规模、高质量的标注数据集是算法性能提升的基石。一个优秀的目标检测数据集不仅要涵盖足够多的类别和样本，还需要在多样性、标注精度、任务难度等方面达到平衡，从而帮助模型学到鲁棒且泛化性强的特征。

本文将系统介绍当前公开的几个具有代表性的重要目标检测数据集，从早期的 Pascal VOC 到广泛应用的 MS COCO，从规模庞大的 Open Images 到长尾挑战的 LVIS，再到特定场景下的自动驾驶、无人机、生态监测等数据集，并结合它们的特点、适用场景和局限性，为研究者和工程师提供参考。

📥 数据集快速索引与下载链接

数据集名称	官方下载地址	说明 / 文档
Pascal VOC	http://host.robots.ox.ac.uk/pascal/VOC/	Evaluation & Devkit
MS COCO	https://cocodataset.org/#download	COCO API 文档
ImageNet Detection	http://image-net.org/challenges/LSVRC/	ImageNet 官网
Open Images Dataset	https://storage.googleapis.com/openimages/web/download.html	Open Images 文档
LVIS	https://www.lvisdataset.org/dataset	LVIS API
Objects365	https://www.objects365.org/	Objects365 GitHub
Visual Genome	https://visualgenome.org/api/v0/api_home.html	VG 数据说明
WIDER FACE	http://shuoyang1213.me/WIDERFACE/	评测协议
CrowdHuman	https://www.crowdhuman.org/	CrowdHuman GitHub
PASCAL Context	https://cs.stanford.edu/~roozbeh/pascal-context/	数据集论文

二、经典通用数据集

2.1 Pascal VOC —— 目标检测的里程碑

背景与意义
Pascal VOC（Visual Object Classes Challenge）最早由英国 PASCAL 网络组织于 2005 年发起，是计算机视觉历史上最重要的基准数据集之一。在深度学习兴起之前，Pascal VOC 就已经为传统机器学习方法（如 HOG + SVM）提供了一个标准化的测试平台。自 2005 年到 2012 年，Pascal VOC 每年更新数据，并举办竞赛，对目标检测、分割、分类等任务提出了明确的评测标准。

数据规模与类别
以 Pascal VOC 2012 为例：

图像总数：11,530 张
目标类别：20 类（包括人、动物、车辆、室内物品等）
实例总数：27,450 个
标注形式：矩形边界框（Bounding Box），部分数据提供像素级分割掩码
数据集划分：train、val、test 三个子集

评测指标
Pascal VOC 引入了 mAP（mean Average Precision）作为检测任务的主要评测指标，IoU 阈值通常设为 0.5，这一标准后来被 COCO 等数据集沿用并改进（如引入不同 IoU 阈值的 mAP 平均）。

研究应用与影响
R-CNN、Fast R-CNN、Faster R-CNN、YOLO 等开创性检测算法都是在 Pascal VOC 上首次亮相的。尽管如今数据规模已被 COCO 等大数据集超越，Pascal VOC 仍是入门目标检测和快速模型验证的经典选择。

优缺点分析

优点：类别均衡、标注质量高、任务定义清晰
缺点：类别数少、场景较为单一，不足以支持复杂模型的全面训练

2.2 Microsoft COCO —— 场景化与多任务标注的典范

数据集概述
COCO（Common Objects in Context）由微软研究院于 2014 年发布，旨在解决早期数据集场景单一、物体孤立的问题。COCO 的图像来源多样且贴近真实生活，物体经常以遮挡、不同尺度、不同姿态出现，极大提升了检测任务的挑战性。

数据规模

图像总数：约 328,000 张
目标类别：80 类 “things” 类目标
实例总数：约 250 万
其他标注：91 类 “stuff” 类语义区域、5 个关键点（人体姿态）、实例分割、多句图像描述
数据划分：
- Train2017：约 118K 张图像
- Val2017：5K 张图像
- Test2017：20K 张图像（评测需提交结果）

标注特色

每个实例都有精细的分割掩码（而不仅是矩形框）
提供关键点标注，支持人体姿态估计
标注背景（stuff），有助于场景理解

评测指标
COCO mAP 采用多个 IoU 阈值（0.5:0.05:0.95）的平均结果，考察模型在不同精度要求下的表现，较 VOC 的单一 IoU=0.5 评测更严格。

应用与竞赛
COCO 每年都会举办 COCO Challenge，吸引全球顶尖研究团队参赛，是目标检测、实例分割、关键点检测等任务的黄金标准。

优缺点分析

优点：场景复杂、标注全面、任务多样、评测标准严格
缺点：类别数量相对有限（80 类），对长尾类别不够友好；数据集规模较大，训练开销高

2.3 ImageNet Detection —— 从分类到检测的延伸

背景
ImageNet 最初是大规模图像分类数据集（超过 1400 万张图，1000+ 类别），在 2013–2017 年间的 ImageNet Large Scale Visual Recognition Challenge（ILSVRC）中，增加了检测任务子集（ImageNet Detection）。

数据规模

图像数量：约 450,000 张
类别数：200 类
标注形式：矩形边界框

应用
ImageNet Detection 更多用于大规模预训练，再迁移到下游检测任务（如 COCO、VOC）中，显著提升模型精度。

2.4 Open Images —— 大规模多标注数据集

简介
Open Images 是由 Google 发布的开放数据集，规模巨大，涵盖丰富的标注类型，包括边界框、实例分割、多标签分类、视觉关系等。

数据规模

图像总数：约 900 万张
检测类别：约 600 类
实例总数：数千万个标注框
额外标注：视觉关系（如“人-骑-自行车”）、图像级标签

特点

类别数量多，适合大词汇量目标检测
包含大量稀有类别，适合少样本学习
图像来源多样，包括网络爬取与人工标注

2.5 LVIS —— 长尾挑战的试金石

背景
LVIS（Large Vocabulary Instance Segmentation）是 COCO 的扩展，旨在解决类别分布的长尾问题。

数据规模

图像总数：164,000+
类别数：1000+
标注：实例分割掩码
类别分布：少样本类别占大多数

2.6 Objects365 —— 大规模物体检测专用数据集

简介
Objects365 由 Megvii（旷视科技）发布，专门为目标检测任务构建。相比 COCO 的 80 类，它大幅扩展到 365 类，类别覆盖日常生活、室内外物品、自然物体等多个领域。

数据规模

图像总数：约 63 万张（训练集）+ 5 万张（验证集）
类别数：365
标注数量：约 1000 万个边界框
场景：街景、室内、自然环境、商店等多样化场景

特点与应用

类别数量多，适合大词汇量目标检测研究
场景多样性高，涵盖物体尺度差异大、遮挡严重等复杂情况
在大模型预训练中常作为补充数据集使用，例如 DETR、YOLOv8 等模型的多数据混合训练

2.7 Visual Genome —— 视觉关系与密集标注

简介
Visual Genome 是斯坦福大学发布的一个多任务视觉数据集，主要用于图像理解与视觉问答，但它也包含丰富的目标检测标注（物体框）。

数据规模

图像总数：108,077 张
标注物体数：约 380 万个
类别数：约 33,877（包括同义词和细分类别）
其他标注：物体属性、物体之间的关系（如“人-骑-马”）、区域描述

特点

极大词汇量（33K 类别），适合长尾分布研究
同时提供视觉关系图谱，可扩展到 scene graph generation（场景图生成）任务
物体类别细粒度化，但存在标注噪声和同义词冗余

2.8 WIDER FACE —— 面部检测的黄金标准

简介
WIDER FACE 由香港中文大学发布，是人脸检测任务的权威数据集，适合检测小目标与密集目标。

数据规模

图像总数：32,203 张
人脸实例：393,703 个
数据划分：Train（40%）、Val（10%）、Test（50%）
难度等级：Easy、Medium、Hard（根据人脸尺寸、遮挡、姿态划分）

特点与应用

覆盖不同姿态、光照、遮挡、尺度的人脸
在安全监控、行人分析、人脸识别前置检测等领域应用广泛
检测算法如 MTCNN、RetinaFace 等在此评测

2.9 CrowdHuman —— 高密度行人检测

简介
CrowdHuman 数据集专门针对行人检测中的密集人群场景，旨在解决遮挡与重叠问题。

数据规模

图像总数：约 15K 张（训练集）+ 4K 张（验证集）
行人实例：超过 33 万个标注框
标注类型：
- Full body：完整人体框
- Visible body：可见部分框
- Head box：头部框

特点

平均每张图像有 22+ 行人，遮挡严重
对算法的密集检测能力和 NMS（非极大值抑制）策略提出更高要求
常与 CityPersons、WIDER Pedestrian 一起用于行人检测算法评测

2.10 PASCAL Context —— VOC 的场景理解升级版

简介
PASCAL Context 是在 Pascal VOC 2010 数据集的基础上扩展的场景标注版本，包含更多物体类别与“stuff”背景标注。

数据规模

图像总数：10,103 张
类别数：400+（包含“thing”和“stuff”类别）
标注：像素级分割（每个像素标注类别）

特点与应用

相比 VOC 的 20 类，Context 提供了更加全面的场景信息
适合多任务学习，将检测与语义分割、场景理解结合
类别分布依旧偏向常见物体，长尾类别样本少

意义
LVIS 非常适合测试模型在长尾分布下的泛化能力，也是 few-shot detection 研究的重要基准。

三、特定领域数据集

3.1 自动驾驶

KITTI：包含实车采集的街景图像，标注 2D/3D 边界框
Cityscapes：高质量城市街道语义分割与检测
BDD100K：10 万张多任务标注驾驶场景
nuScenes：多传感器融合（摄像头、激光雷达、雷达）数据

3.2 航拍与无人机

DOTA：高分辨率遥感影像，多种旋转目标标注
VisDrone：无人机视角图像和视频，含检测与跟踪任务
xView：覆盖多种地理区域与目标类型的遥感检测数据

3.3 生态与农业

iNaturalist Detection：真实物种分布，长尾特性
Global Wheat：小麦穗检测，农业产量分析

四、数据集对比表

数据集	图像数	类别数	标注类型	特点
Pascal VOC	11K	20	边界框/分割	经典入门，场景简单
COCO	328K	80	边界框/分割/关键点	场景复杂，多任务
ImageNet Det	450K	200	边界框	大规模预训练
Open Images	9M	600+	多标注	类别丰富，长尾分布
LVIS	164K	1000+	分割	长尾挑战
KITTI	15K	多	2D/3D 框	自动驾驶
DOTA	2800+ 图	15+	旋转框	航拍遥感
iNaturalist	859K	5000+	边界框	生态物种检测

五、趋势与挑战

长尾分布与少样本学习：LVIS、Open Images 等长尾数据集对模型提出了更高要求。
多任务融合：COCO 等数据集同时包含检测、分割、姿态估计等任务。
3D 与多模态：nuScenes 等结合多传感器信息，推动 3D 检测发展。
自动化标注：弱监督、半监督方法减少人工标注成本。
跨域泛化：模型需要在不同数据分布间保持性能稳定。

六、结语

目标检测数据集的发展，推动了从简单物体识别到复杂场景理解的技术演进。选择合适的数据集，不仅关乎模型训练效果，也决定了研究的方向与价值。从 Pascal VOC 到 LVIS，从自动驾驶到生态保护，数据集的多样性正不断拓展目标检测的边界。未来，随着多模态感知、弱监督标注和跨域泛化等方向的推进，数据集的形态与规模也将继续演化，为计算机视觉带来新的挑战与机遇。