pdf转化为md格式后,意味着非结构化文本转为结构化文本,能清晰定位大标题、子标题,图表。

方便后续处理,因为llamaindex和langchain能更有效切分md类文本,避免信息丢失。

1)读取pdf为txt

读取pdf,并使用RecursiveCharacterTextSplitter去尝试分块,一般情况下效果不好

pdf文本暂时表示recur_text

from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitterfrom pypdf import PdfReader
# 读取 PDF 文件
pdf_path = 'docs/word.pdf'
reader = PdfReader(pdf_path)
recur_text = ''
for page in reader.pages:recur_text += page.extract_text().strip() + "\n\n"recur_splitter = RecursiveCharacterTextSplitter(separators=["。"],chunk_size = 512,chunk_overlap  = 128
)
recur_docs = recur_splitter.create_documents([recur_text])

2)使用llm将txt转化为md

qwen或deepseek小一点的LLM不能完成这个任务,deepseek-r1完整版本可以。

prompt示例如下

# 示例调用
prompt = """
请将以下合同转化为md格式。
---
{}
""".format(recur_text)

若recur_text太长,需要切分后分批调用。

另外一种方式,就是将pdf先转化为图谱,在调用qwen2.5-vl模型解析图片输出md5文档。

reference

---

qwen2.5vl-pdf2md

https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

olmocr

https://github.com/allenai/olmocr

六个开源的PDF转Markdown项目

https://zhuanlan.zhihu.com/p/711487482

llm-parse

https://github.com/tanchangsheng/llm-parse

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/91507.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/91507.shtml
英文地址,请注明出处:http://en.pswp.cn/web/91507.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式:中介者模式 Mediator

目录前言问题解决方案结构代码前言 中介者是一种行为设计模式,能让你减少对象之间混乱无序的依赖关系。该模式会限制对象之间的直接交互,迫使它们通过一个中介者对象进行合作。 问题 假如你有一个创建和修改客户资料的对话框, 它由各种控件…

计算机基础速通--数据结构·线性表应用

如有问题大概率是我的理解比较片面,欢迎评论区或者私信指正。 考察线性表,核心围绕其存储结构特性、核心操作实现、场景应用选型三大维度,重点检验对基础概念的理解、代码实现能力及问题分析能力,通常会结合算法设计、复杂度分析和…

LeetCode Hot 100:42. 接雨水

题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 解析 和题目 盛水最多的容器 类似, LeetCode Hot 100:11. 盛最多水的容器-CSDN博客 只是这里将每一个柱子视为一个宽度为…

【C语言入门级教学】字符指针变量

文章目录1.字符指针变量2. 数组指针变量2.1 数组指针变量初始化3.⼆维数组传参的本质1.字符指针变量 在指针的类型中我们知道有⼀种指针类型为字符指针 char* ; ⼀般使⽤: int main() { char ch w; char* pc &ch;//pc的类型是char**pcw;//对pc解引用 修改ch存放的内容…

【Shell脚本自动化编写——报警邮件,检查磁盘,web服务检测】

Shell脚本自动化编写Shell脚本自动化编写一、判断当前磁盘剩余空间是否有20G,如果小于20G,则将报警邮件发送给管理员,每天检查一次磁盘剩余空间。第一步:准备工作第二步:配置邮件信息第三步:检查磁盘的自动…

Java 接口(下)

三、接口的继承性【基础重点】 1. Java中的接口之间的继承关系是多继承,一个接口可以有多个父接口(1) 语法:interface 接口名 extends 父接口1,父接口2{} 2. 类和接口之间是多实现的关系:一个类可以同时实现多个接口(1) 语法:clas…

学习游戏制作记录(各种水晶能力以及多晶体)8.1

1.实现创建水晶并且能与水晶进行交换位置的能力创建好水晶的预制体,添加动画控制器,传入待机和爆炸的动画创建Crystal_Skill_Control脚本:挂载在水晶预制体上private float crystalExstTime;//水晶存在时间public void SetupCrystal(float _c…

在vscode 如何运行a.nut 程序(Squirrel语言)

在 VS Code 中运行 Squirrel 语言编写的 .nut 程序,需要先配置 Squirrel 运行环境并安装相关插件,具体步骤如下: 一、安装 Squirrel 解释器 Squirrel 程序需要通过其官方解释器 squirrel 或 sq 执行,首先需要安装解释器&#xf…

【数据结构】生活中的数据结构:从吃饭与编程看栈与队列思维

生活中的数据结构:从吃饭与编程看栈与队列思维 在软件开发的世界里,栈(Stack)和队列(Queue)是两种基础的数据结构,它们以不同的顺序管理数据:栈遵循后进先出(LIFO&#x…

牛客——接头密匙

题目链接:牛客--接头密匙 该题是一个很显然的前缀树问题,只需要构建a中所有数组对应的前缀树,之后求b所处前缀个数即可。关于前缀树的构建,可以观看左老师算法讲解045的视频,简单来讲就是用特殊字符将实际数据隔开&…

【Linux基础知识系列】第六十三篇 - 文件编辑器基础:vim

在 Linux 系统中,文本编辑器是系统管理员和开发人员不可或缺的工具。vim 是一个功能强大的文本编辑器,广泛应用于 Linux 系统中。它支持多种编辑模式,提供了丰富的文本编辑功能,适用于编写代码、配置文件和文档。掌握 vim 的基本使…

音频驱动的视觉特效:粒子、动画与Shader的融合技术

音频驱动视觉效果的实现与应用1. 引言在互动媒体、游戏和数字艺术领域,音频数据实时控制视觉元素已成为核心技术,它能创造沉浸式体验,增强用户参与感。例如,音乐会可视化或VR游戏中,音频信号驱动粒子流动、动画变化和S…

机器学习环境配置

【终极指南】吃透机器学习环境配置:从Conda、CUDA到Docker容器化 大家好!在机器学习的旅程中,一个稳定、可复现的环境是成功的基石。 第一部分:核心理念——为何环境配置如此重要? 任何机器学习模型的运行,…

【14】大恒相机SDK C#开发 ——Bitmap.UnlockBits()什么意思?有什么用?bmpData.Scan0;什么意思?有什么用?

文章目录1 Bitmap.UnlockBits()2 bmpData.Scan01 Bitmap.UnlockBits() 在 C# 中,Bitmap.UnlockBits() 方法的作用是解锁通过 Bitmap.LockBits() 方法锁定的位图数据,并释放相关的位图数据结构。 当你使用 Bitmap.LockBits() 方法锁定位图数据时&#x…

什么是doris

文章目录简介使用场景Apache Doris 主要应用于以下场景:实时数据分析:湖仓融合分析:半结构化数据分析:Apache Doris 的核心特性详细请看官方文档: Apache Doris介绍简介 Apache Doris 是一款基于 MPP 架构的高性能、实…

python+pyside6的简易画板

十分简单的一个画板程序,用QLabel控件作为画布,在画布上可以画出直线、矩形、填充矩形、园,椭园、随手画、文本等内容。将原先发布的画板程序中的画文本方法修改成了原位创建一编辑框,编辑框失去焦点后,即将文本画在画…

【数据可视化-76】从释永信被查,探索少林寺客流量深度分析:Python + Pyecharts 炫酷大屏可视化(含完整数据和代码)

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

WPF TreeView自带自定义滚动条

放在TreeView.Resources中&#xff1a;<Style TargetType"ScrollBar"><Setter Property"Stylus.IsPressAndHoldEnabled" Value"false"/><Setter Property"Stylus.IsFlicksEnabled" Value"false"/><Set…

MongoDB 详细用法与 Java 集成完整指南

MongoDB 详细用法与 Java 集成完整指南 目录 MongoDB 基础概念MongoDB 安装与配置MongoDB Shell 基本操作Java 环境准备Java MongoDB 驱动集成连接配置基本 CRUD 操作高级查询操作索引操作聚合管道事务处理Spring Boot 集成最佳实践 1. MongoDB 基础概念 1.1 核心概念对比 …

【Flutter3.8x】flutter从入门到实战基础教程(四):自定义实现一个自增的StatefulWidget组件

fluttet中实现一个自定义的StatefulWidget组件&#xff0c;可以在数据变化后&#xff0c;把最新的页面效果展示给客户 实现效果实现代码 pages文件夹下新加一个counter_page.dart文件 class CounterPage extends StatefulWidget {const CounterPage({super.key});overrideState…