MinerU 目录

一、更新内容概述
- - - 写在前面的话：
    - 总体来看，2.0版本升级为全新的 VLM 解析模式，更优于以前的基础解析方式。
二、MinerU 安装部署
- 下面使用源码来进行环境安装。
- - - 注意：
    - 当前状态说明
    - 推荐解决方案
- 如果是下载插件慢可以指定阿里源
三、MinerU 使用
- 1. 在线体验
- 2. 命令行使用方式
- - - 2-1. 基本调用形式：
    - 需要注意的是，如果下载完 modelscope 模型，再下次调用时，如果不添加--source modelscope，系统仍然会去下载huggingface模型。
    - 2-2. 关于模型的下载：
    - 2-2-1. 在线下载模型
    - Switch to ModelScope Source
    - 需要注意的是，如果下载完 modelscope 模型，再下次调用时，如果不添加--source modelscope，系统仍然会去下载huggingface模型。
    - 2-2-2. 离线下载模型到本地
- 3. 通过python API 调用，或Visual Invocation调用方式
四、sglang加速VLM模型推理
五、VLM效率测试
- 1. 参数说明
- 2. vlm-transformers推理测试
- - - 便于观察对比，怎么使显存限制到1张显卡上？
- 3. sglang推理测试
十、可能遇到的错误
- 解决方式是安装cuda和安装gcc/g++(版本11)：
- - - 1. 安装cuda：
    - 2. 安装gcc/g++：

MinerU 仓库地址：https://github.com/opendatalab/mineru

一、更新内容概述

MinerU v2.0.0版本，更新内容简单概括如下：

调用格式优化
之前调用 MinerU 安装的包名为magic-pdf(MinerU仓库旧名)，现在统一为 mineru，解决了命名一致性的问题。
部署方式优化
之前调用时，需要先手动下载模型，并生成 json 配置文件，现在模型无需手动下载，而会在首次调用时自动下载，并且具体配置信息可通过参数指定，无需再通过json配置文件。
文件结构优化
除代码结构优化之外，下载的模型目录和输出的结果目录会更加清晰。
方向垂直化
移除了内置的 LibreOffice 文档转换模块，解析文件将仅支持 pdf/jpg/png
全新的 VLM 解析方式
推出了仅0.9B参数量的 VLM 模型，单模型涵盖所有文档解析任务，精度优于传统 72B 级别的 VLM 模型。

在本文中，以前的解析方式统称为基础解析方式，VLM解析方式则称为VLM解析方式。

写在前面的话：

区别是在使用时，通过 -b 或 --backend参数，可指定使用基础解析方式或vlm解析方式：
总的分

pipeline：基础解析方式
vlm-transformers：vlm解析方式
2种解析方式。

其中 vlm解析方式在调用时又可细分为：

vlm-sglang-engine：vlm加速解析方式
vlm-sglang-client：vlm加速解析方式(连接sglang 服务调用)

所以在实际调用时，就可以有4种 -b 指定

mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers

通过外部指定CUDA_VISIBLE_DEVICES来强行约束进程只看到限定的显卡。

下面指定进程将所有显存放到第1张显卡(编号0)上。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers

通过设定vlm-sglang-engine参数来控制使用sglang推理。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-sglang-engine

实测发现，对于-b vlm-sglang-engine，显存占用会明显增加。当然，速度提升也非常明显，达到了5s/页。

总体来看，2.0版本升级为全新的 VLM 解析模式，更优于以前的基础解析方式。

估计是它内部采用了某些加速机制，可以通过更高的显存占用换取更快的时间，默认情况下，会尽可能最大利用剩余显存资源。

————————————————

二、MinerU 安装部署

前置条件：MinerU v2.0.0 兼容的python版本为 3.10-3.14。
仓库readme.md文件中，Local Deployment 部分示例了两种安装方法：1.1 Install via pip or uv 和 1.2. Install from source。
至于1.3 是两种版本：核心版(无需 sglang 加速) 和完整版（包含 sglang 加速，会多一些依赖）

下面使用源码来进行环境安装。

下载源码

(base) root@hostname: cd /usr/local/soft/ai/minerU 
(base) root@hostname:/usr/local/soft/ai/minerU# git clone https://gitee.com/ai_seek/MinerU.gitCloning into 'MinerU'...
remote: Enumerating objects: 17202, done.
remote: Counting objects: 100% (3298/3298), done.
remote: Compressing objects: 100% (1373/1373), done.
remote: Total 17202 (delta 1893), reused 3158 (delta 1817), pack-reused 13904 (from 1)
Receiving objects: 100% (17202/17202), 129.58 MiB | 10.00 MiB/s, done.
Resolving deltas: 100% (10278/10278), done.
(base) root@hostname:/usr/local/soft/ai/minerU# 
(base