MinerU 目录

  • 一、更新内容概述
        • 写在前面的话:
        • 总体来看,2.0版本升级为全新的 VLM 解析模式,更优于以前的基础解析方式。
  • 二、MinerU 安装部署
    • 下面使用源码来进行环境安装。
        • 注意:
        • 当前状态说明
        • 推荐解决方案
    • 如果是下载插件慢可以 指定阿里源
  • 三、MinerU 使用
    • 1. 在线体验
    • 2. 命令行使用方式
        • 2-1. 基本调用形式:
        • 需要注意的是,如果下载完 modelscope 模型,再下次调用时,如果不添加--source modelscope,系统仍然会去下载huggingface模型。
        • 2-2. 关于模型的下载:
        • 2-2-1. 在线下载模型
        • Switch to ModelScope Source
        • 需要注意的是,如果下载完 modelscope 模型,再下次调用时,如果不添加--source modelscope,系统仍然会去下载huggingface模型。
        • 2-2-2. 离线下载模型到本地
    • 3. 通过python API 调用,或Visual Invocation调用方式
  • 四、sglang加速VLM模型推理
  • 五、VLM效率测试
    • 1. 参数说明
    • 2. vlm-transformers推理测试
        • 便于观察对比,怎么使显存限制到1张显卡上?
    • 3. sglang推理测试
  • 十、可能遇到的错误
    • 解决方式是安装cuda和安装gcc/g++(版本11):
        • 1. 安装cuda:
        • 2. 安装gcc/g++:

MinerU 仓库地址:https://github.com/opendatalab/mineru

一、更新内容概述

MinerU v2.0.0版本,更新内容简单概括如下:

  • 调用格式优化
    之前调用 MinerU 安装的包名为magic-pdf(MinerU仓库旧名),现在统一为 mineru,解决了命名一致性的问题。
  • 部署方式优化
    之前调用时,需要先手动下载模型,并生成 json 配置文件,现在模型无需手动下载,而会在首次调用时自动下载,并且具体配置信息可通过参数指定,无需再通过json配置文件。
  • 文件结构优化
    除代码结构优化之外,下载的模型目录和输出的结果目录会更加清晰。
  • 方向垂直化
    移除了内置的 LibreOffice 文档转换模块,解析文件将仅支持 pdf/jpg/png
  • 全新的 VLM 解析方式
    推出了仅0.9B参数量的 VLM 模型,单模型涵盖所有文档解析任务,精度优于传统 72B 级别的 VLM 模型。

在本文中,以前的解析方式统称为基础解析方式,VLM解析方式则称为VLM解析方式。

写在前面的话:

区别是在使用时,通过 -b 或 --backend参数,可指定使用基础解析方式或vlm解析方式:
总的分

  • pipeline:基础解析方式
  • vlm-transformers:vlm解析方式
    2种 解析方式。

其中 vlm解析方式 在调用时又可细分为:

  • vlm-sglang-engine:vlm加速解析方式
  • vlm-sglang-client:vlm加速解析方式(连接sglang 服务调用)

所以在实际调用时,就可以有4种 -b 指定

mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers 

通过外部指定CUDA_VISIBLE_DEVICES来强行约束进程只看到限定的显卡。

下面指定进程将所有显存放到第1张显卡(编号0)上。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-transformers

通过设定vlm-sglang-engine参数来控制使用sglang推理。

CUDA_VISIBLE_DEVICES=0 mineru -p shencha.pdf -o result --source modelscope -b vlm-sglang-engine

实测发现,对于-b vlm-sglang-engine,显存占用会明显增加。当然,速度提升也非常明显,达到了5s/页。

总体来看,2.0版本升级为全新的 VLM 解析模式,更优于以前的基础解析方式。

估计是它内部采用了某些加速机制,可以通过更高的显存占用换取更快的时间,默认情况下,会尽可能最大利用剩余显存资源。

————————————————

二、MinerU 安装部署

  • 前置条件:MinerU v2.0.0 兼容的python版本为 3.10-3.14。
  • 仓库readme.md文件中,Local Deployment 部分示例了两种安装方法:1.1 Install via pip or uv 和 1.2. Install from source。
    至于1.3 是两种版本:核心版(无需 sglang 加速) 和 完整版(包含 sglang 加速,会多一些依赖)

下面使用源码来进行环境安装。

  1. 下载源码
(base) root@hostname: cd /usr/local/soft/ai/minerU 
(base) root@hostname:/usr/local/soft/ai/minerU# git clone https://gitee.com/ai_seek/MinerU.gitCloning into 'MinerU'...
remote: Enumerating objects: 17202, done.
remote: Counting objects: 100% (3298/3298), done.
remote: Compressing objects: 100% (1373/1373), done.
remote: Total 17202 (delta 1893), reused 3158 (delta 1817), pack-reused 13904 (from 1)
Receiving objects: 100% (17202/17202), 129.58 MiB | 10.00 MiB/s, done.
Resolving deltas: 100% (10278/10278), done.
(base) root@hostname:/usr/local/soft/ai/minerU# 
(base

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88846.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88846.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/88846.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为昇腾NPU与NVIDIA CUDA生态兼容层开发实录:手写算子自动转换工具链(AST级代码迁移方案)

点击 “AladdinEdu,同学们用得起的【H卡】算力平台”,H卡级别算力,按量计费,灵活弹性,顶级配置,学生专属优惠。 当国产AI芯片崛起遭遇生态壁垒,如何实现CUDA算子到昇腾平台的无损迁移成为关键挑…

GraphRAG Docker化部署,接入本地Ollama完整技术指南:从零基础到生产部署的系统性知识体系

相关推荐:Umi-OCR 的 Docker安装(win制作镜像,Linux(Ubuntu Server 22.04)离线部署) 一、技术背景与发展脉络 1.1 RAG技术演进历程分析 检索增强生成(RAG)技术的发展经历了三个重要…

Android 系统默认Launcher3 菜单模式双层改成单层-3

Android 系统默认自带Launcher3 菜单都为双层模式 各手机大厂的Launcher的菜单模式都为单层 如何将launcher3的菜单模式改为单层模式 mOverviewPanel = (ViewGroup) findViewById(R.id.overview_panel); mWidgetsButton = findViewById(R.id.widget_butto…

基于k8s环境下pulsar高可用测试和扩缩容(上)

#作者:任少近 文章目录Pulsar高可用测试1. 测试目的2.当前集群环境说明3. 模拟故障场景4.功能验证5.结论Pulsar高可用测试 1. 测试目的 本次测试旨在验证 Apache Pulsar 在某个 Broker 节点宕机(down)的情况下,是否仍能正常提供…

JAVA JVM垃圾收集

JVM 垃圾收集是 Java 自动内存管理的核心,本文通过围绕 “哪些是垃圾、何时回收、怎么回收、用啥回收器、内存咋分配” 等展开一、判断哪些是垃圾引用计数法:给对象分配引用计数器,有引用时计数加 1,引用失效减 1 ,计数…

UniHttp生命周期钩子与公共参数实战:打造智能天气接口客户端

> 通过灵活的生命周期钩子,我们让HTTP请求从机械操作进化为智能对话 在现代应用开发中,高效处理HTTP请求是核心能力。本文将深入探索UniHttp框架中强大的**HttpApiProcessor生命周期钩子**,并演示如何利用其**公共参数填充机制**优雅地处理第三方接口。我们将以百度天…

C++高级编程,类模版成员函数类外实现

#include <iostream> #include <string>//类模版成员函数类外实现 template<class T1,class T2> class Person {//Person构造函数 public:Person(T1 name,T2 age);// {// this->m_Namename;// this->m_Ageage;// }//Person的成员函数void show…

[Linux入门 ] RAID存储技术概述

一.数据存储架构 1️⃣存储系统 2️⃣主机系统 3️⃣互连部件 4️⃣存储设备与磁盘阵列 二.数据存储技术 1️⃣数据冗余技术 2️⃣RAID 0 3️⃣RAID 1 4️⃣RAID 2 5️⃣RAID 3 6️⃣RAID 4 三.基于硬件的RAID磁盘阵列 1️⃣阵列卡(RAID控制器) 2️⃣阵列卡种类 …

AI绘画生成章邯全身像提示词

融合了历史元素和视觉表现力&#xff0c;力求生成符合秦末名将章邯身份的全身像。 核心提示词结构&#xff1a; [主体描述]&#xff0c;[服装/盔甲细节]&#xff0c;[姿态/神情]&#xff0c;[武器]&#xff0c;[背景/氛围]&#xff0c;[风格/质量]&#xff0c;[参数] 选项一&…

iOS高级开发工程师面试——关于优化

iOS高级开发工程师面试——关于优化 一、TableView 有什么好的性能优化方案?二、界面卡顿和检测你都是怎么处理?三、谈谈你对离屏渲染的理解?四、如何降低APP包的大小?五、日常如何检查内存泄露?六、APP启动时间应从哪些方面优化?一、TableView 有什么好的性能优化方案?…

线性基学习笔记

我们称一个线性空间 V V V 的一个极大线性无关集为这个线性空间的线性基,简称基。 异或线性基 在异或空间下,我们定义如下内容。 异或和 设 S S

ESP-Timer入门(基于ESP-IDF-5.4)

主要参考资料&#xff1a; ESP 定时器&#xff08;高分辨率定时器&#xff09;: https://docs.espressif.com/projects/esp-idf/zh_CN/stable/esp32s3/api-reference/system/esp_timer.html 目录ESP-Timer与FreeRTOS TimerAPI 使用1.创建定时器2.启动定时器3.管理定时器4.时间管…

014_批处理与大规模任务

批处理与大规模任务 目录 批处理概述核心优势技术规格API使用管理和监控应用场景最佳实践 批处理概述 什么是批处理 批处理&#xff08;Batch Processing&#xff09;是一种异步处理大量Claude API请求的方法&#xff0c;允许您一次性提交多个消息请求&#xff0c;系统将在…

Python淘宝拍立淘按图搜索API接口,json数据示例参考

淘宝拍立淘按图搜索API接口示例淘宝的拍立淘(图片搜索)功能通常是通过淘宝开放平台提供的API实现的。以下是一个模拟的JSON数据示例和接口调用参考&#xff1a;模拟API请求示例import requestsimport base64# 示例图片路径image_path "example.jpg"# 读取图片并编码…

静默的田野革命—人工智能重构农业生态的技术风暴与文明悖论

一、饥饿困局的数字突围当全球粮食损失率高达30%&#xff08;约13亿吨&#xff09;与8亿人营养不良并存&#xff0c;当农药滥用导致传粉昆虫种群崩溃与地下水资源枯竭&#xff0c;传统农业的生态死结日益收紧。这场危机的核心是生物复杂性对工业化农业的报复&#xff1a;小麦基…

【大模型推理论文阅读】 Thinking Tokens are Information Peaks in LLM Reasoning

Demystifying Reasoning Dynamics with Mutual Information&#xff1a;Thinking Tokens are Information Peaks in LLM Reasoning 摘要 大语言推理模型&#xff08;LRM&#xff09;在复杂问题解决方面展现出了令人瞩目的能力&#xff0c;但其内部推理机制仍未得到充分理解。…

【TCP/IP】14. 远程登录协议

14. 远程登录协议14. 远程登录协议14.1 基本概念14.2 Telnet 命令14.3 Telnet 选项及协商14.4 Telnet 子选项协商14.5 Telnet 操作模式本章要点14. 远程登录协议 14.1 基本概念 Telnet 协议是 TCP/IP 协议族的重要成员&#xff0c;核心功能是实现本地计算机对远程主机的终端仿…

Flink1.20.1集成Paimon遇到的问题

flinkcdc mysql 到paimon 1&#xff1a;Caused by: java.lang.ClassNotFoundException: org.apache.kafka.connect.data.Schema 可以参考这个文章 明确指出了flink-connector-mysql-cdc-3.4.0.jar存在这个包&#xff0c;但是flink-sql-connector-mysql-cdc-3.4.0.jar中没有这个…

C++高频知识点(十)

文章目录46. 智能指针是什么&#xff1f;怎么使用?1. std::unique_ptr2. std::shared_ptr3. std::weak_ptr47. 什么是野指针&#xff1f;1. 使用已释放的指针2. 未初始化的指针3. 指针超出作用域如何避免野指针1. 立即将指针置空2. 初始化指针3. 使用智能指针4. 避免返回局部变…

c#中Random类、DateTime类、String类

C# 中 Random 类分析Random 类用于生成伪随机数&#xff0c;位于 System 命名空间。它的核心机制是基于一个种子值 (seed)&#xff0c;通过算法生成看似随机的数列。相同种子会生成相同的随机数序列&#xff0c;这在需要可重现的随机场景中很有用。核心特点种子与随机性默认构造…