doclayout_yolo 是一个基于 YOLOv10 架构的文档布局检测工具包，旨在快速、高效地识别文档中的不同元素（如文本、图像、表格、标题等）。它结合了 DocSynth-300K 数据集的预训练模型和全局到局部的感知机制，适用于论文、教科书、试卷、幻灯片等多种文档类型的布局分析。

一、doclayout_yolo 核心功能

文档布局检测
- 支持检测文档中的多种元素（如文本块、表格、图像、标题、列表等）。
- 提供高精度的边界框标注和分类结果。
- 支持实时推理，适合大规模文档处理场景。
多文档类型支持
- 适用于论文、教科书、试卷、幻灯片、财务报表等复杂布局的文档。
- 通过合成数据（DocSynth-300K）预训练，具备较强的泛化能力。
高效推理
- 基于 YOLOv10 架构优化，推理速度极快（FPS 高）。
- 支持 GPU 加速（CUDA）和 CPU 推理。
灵活集成
- 可作为独立工具使用，也可集成到 PDF 解析流程中（如 PDF-Extract-Kit）。
- 提供 HuggingFace 模型加载接口，便于扩展和部署。

二、安装方法

1. 直接安装

仅用于页面布局检测：

pip install doclayout-yolo==0.0.2

2. 通过 PDF-Extract-Kit 安装

支持完整的文档解析（布局检测 + 内容提取）：

克隆仓库：

git clone https://github.com/opendatalab/PDF-Extract-Kit.git
cd PDF-Extract-Kit

安装依赖：
```
pip install -r requirements.txt
```

运行布局检测脚本：

python scripts/layout_detection.py --config configs/layout_detection.yaml

三、使用示例

1. 快速体验（HuggingFace Demo）

访问 HuggingFace Demo：DocLayout-YOLO Demo
上传文档图像，实时查看布局检测结果。

2. 本地推理代码

import cv2
from doclayout_yolo import YOLOv10
from huggingface_hub import hf_hub_download# 下载并加载预训练模型
filepath = hf_hub_download(repo_id="juliozhao/DocLayout-YOLO-DocStructBench",filename="doclayout_yolo_docstructbench_imgsz1024.pt"
)
model = YOLOv10(filepath)# 模型推理
det_res = model.predict("path/to/image",       # 输入图像路径imgsz=1024,            # 输入图像尺寸conf=0.2,              # 置信度阈值device="cuda:0"        # 使用 GPU（如无 GPU 改为 "cpu"）
)# 保存检测结果
annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20)
cv2.imwrite("result.jpg", annotated_frame)

3. 批量处理

通过 PDF-Extract-Kit 实现批量处理：

python scripts/layout_detection.py --config configs/layout_detection.yaml

四、技术亮点

可控感知模块（CRM）
- 通过多分支卷积核和特征选择机制，提取不同粒度的上下文特征。
- 参数共享设计降低计算开销，提升推理效率。
全局到局部结构（GL）
- 分层感知机制：
  - 浅层：大卷积核保留大尺寸元素的纹理特征。
  - 中间层：中等卷积核感知中等尺寸物体。
  - 深层：轻量瓶颈层提取语义信息。
高性能表现
- 在 DocStructBench 评测集中，综合性能（mAP 和 FPS）优于现有方法。
- 平均精度均值（mAP）和每秒帧数（FPS）均达到 SOTA 水平。

五、应用场景

文档数字化
- 快速识别文档中的文本、表格、图像等元素，为 OCR 提供布局信息。
信息提取
- 结合布局检测结果，精准提取表格、列表、关键段落等结构化信息。
内容理解
- 分析文档布局结构，辅助语义理解（如学术论文的章节划分）。
自动化标注
- 作为标注工具的预处理模块（如 X-AnyLabeling 已集成该模型）。

六、其他说明

1.相关资源

GitHub 主页：DocLayout-YOLO
论文：arXiv:2410.12628
HuggingFace Demo：体验链接
PDF-Extract-Kit：文档解析工具
MinerU：PDF 转 Markdown 工具

2. 注意事项

依赖库：ultralytics、YOLOv10、huggingface_hub。
社区贡献：支持批量推理、自定义数据集训练等功能。
开源协议：MIT License，可自由用于商业和研究场景。

硬件要求
- 推荐使用 GPU（NVIDIA CUDA 支持）以获得最佳性能。
- 若无 GPU，可改用 CPU 推理，但速度会显著下降。
模型兼容性
- 当前版本主要支持图像输入（如 PDF 转图像后的单页）。
- 如需处理 PDF 文件，需结合 PDF-Extract-Kit 或其他 PDF 解析工具。
自定义训练
- 可参考官方文档扩展模型，支持自定义数据集训练。