RAG(Retrieval-Augmented Generation)工程落地过程中,处理文档中的表格数据 是一个非常重要但复杂的问题,特别是针对技术文档、报告、论文等结构化强的资料。比如PDF文档里的表格数据,如下:

RAG处理表格数据的难点

(1)所携带的语义信息是不足的,不利于后面的语义检索;

(2)标题与数据割裂;

(3)缺少上下文语义;

(4)Embedding 不适配结构化数据;

(5)转换成纯文本后,行列关系消失,难以支持细粒度查询;

还有其他问题就不一一列举了。

解决方案

我们该如何切割该PDF文档呢?又该怎么精准的检索查询出表格中的数据呢?

直接对表格做向量存储索引的检索通常效果欠佳,可以借助大模型生成表格摘要用于嵌入与检索。这有利于提高检索精确度,加强大模型对表格的理解。在检索阶段,通过递归检索出原始的表格用于后面生成。

1、文档转成MarkDown

建议在切分文档之前,将所有非结构化的文档,比如pdf,word,ppt,txt等都转成带有Markdown格式的文档,这么做的好处很多,以后有空再聊。

(1)PDF转MarkDown

有很多开源的组件,我常用的是pymupdf4llm 。以下是demo代码:

import pymupdf4llm
from pathlib import Path# 设置参数
pdf_path = r"D:\Test\muxue\data2\caiwubaogao.pdf"  # 替换为您的 PDF 文件路径
output_md = r"D:\Test\muxue\data2\caiwubaogao.md"           # 输出的 Markdown 文件名
image_dir = r"D:\Test\muxue\data2\images"              # 图片保存目录
dpi = 300                         # 图片分辨率
image_format = "png"              # 图片格式,可选 "png"、"jpg" 等# 创建图片保存目录
Path(image_dir).mkdir(parents=True, exist_ok=True)# 转换 PDF 为 Markdown,并提取图片
md_text = pymupdf4llm.to_markdown(doc=pdf_path,write_images=True,image_path=image_dir,image_format=image_format,dpi=dpi
)# 保存 Markdown 内容到文件
with open(output_md, "w", encoding="utf-8") as f:f.write(md_text)print(f"Markdown 内容已保存到 {output_md}")
print(f"图片已保存到目录 {image_dir}")

(2)Word转MarkDown

同样有很多开源组件可用,我使用mammoth 。示例代码如下:

import mammoth
import osdef docx_to_markdown_with_images(docx_path, output_md_path=None, image_dir="images"):os.makedirs(image_dir, exist_ok=True)def save_image(image):image_name = image.alt_text.replace(" ", "_") if image.alt_text else "image"ext = {"image/png": ".png","image/jpeg": ".jpg","image/gif": ".gif"}.get(image.content_type, ".bin")filename = f"{image_name}{ext}"image_path = os.path.join(image_dir, filename)# 避免重名counter = 1base_name = filename.rsplit(".", 1)[0]while os.path.exists(image_path):filename = f"{base_name}_{counter}{ext}"image_path = os.path.join(image_dir, filename)counter += 1# 读取图片数据,保存 —— **改这里!**with image.open() as img_file:with open(image_path, "wb") as out_file:out_file.write(img_file.read())# 返回 Markdown 中图片的路径,注意替换成相对路径或 URL 时修改这里return {"src": image_path.replace("\\", "/")}with open(docx_path, "rb") as docx_file:result = mammoth.convert_to_markdown(docx_file,convert_image=mammoth.images.img_element(save_image))markdown_text = result.valueif output_md_path:with open(output_md_path, "w", encoding="utf-8") as f:f.write(markdown_text)return markdown_text# 示例
markdown = docx_to_markdown_with_images(r"D:\Test\muxue\data2\caiwubaogao.docx",output_md_path=r"D:\muxue\data2\caiwubaogao.md",image_dir=r"D:\Test\muxue\data2\images"
)
print(markdown)

2、采用特殊的文本切割器

(1)MarkdownNodeParser

LlamaIndex对MarkDown文件切分,有几个切割器,比较常用的切割器是MarkdownNodeParser,示例代码如下:

from llama_index.core import SimpleDirectoryReader, VectorStoreIndex
from llama_index.core.node_parser import MarkdownNodeParser# 加载 Markdown 文档
documents = SimpleDirectoryReader(input_dir=r"D:\Test\RAGTest\data\markdown", required_exts=[".md"]).load_data()# 创建 Markdown 节点解析器
node_parser = MarkdownNodeParser.from_defaults(include_metadata=True,            # 包含元数据include_prev_next_rel=True,       # 包含前后节点关系header_path_separator="/"
)# 将文档解析为节点列表
nodes = node_parser.get_nodes_from_documents(documents)

这个切割器是根据MarkDown的标题级别进行切割的。

(2)MarkdownElementNodeParser

为了处理表格,我们需要使用另一个切割器--MarkdownElementNodeParser。它会将markdown文档中的文本、标题、表格等元素分别解析为不同类型的节点:普通文本为TextNode,表格为IndexNode(且“完美表格”会被转为pandas DataFrame,非标准表格则以原始文本存储)。解析后,节点类型和内容可直接区分,便于后续检索和处理。

MarkdownElementNodeParser 与普通的数据分割器的区别主要在于它对其中的表格内容借助大模型生成了内容摘要与结构描述,并构造成索引 Node
(IndexNode),然后在查询时通过索引 Node 找到表格内容 Node,将其一起输入大模型进行生成。

from llama_index.core.llms.mock import MockLLM
from llama_index.core.node_parser.relational.markdown_element import MarkdownElementNodeParser
from llama_index.core.schema import Document, TextNode, IndexNode# 示例markdown文本,包含文本、标题和表格
md_text = """
# 第一章这是第一章的内容。| 年份 | 收益 |
| ---- | ---- |
| 2020 | 12000 |
| 2021 | 15000 |## 第二节这是第二节的内容。| 产品 | 数量 | 价格 |
| ---- | ---- | ---- |
| A    | 10   | 5    |
| B    | 20   | 8    |
"""# 构建Document对象
doc = Document(text=md_text)# 初始化MarkdownElementNodeParser
parser = MarkdownElementNodeParser(llm=MockLLM())# 解析为节点
nodes = parser.get_nodes_from_documents([doc])# 输出每个节点的类型和内容
for i, node in enumerate(nodes):print(f"Node (i): 类型: {type(node).__name__}")print(f"内容: {getattr(node, 'text', getattr(node, 'table', ''))}\n")

切割+检索的示例完整代码如下:

'''
markdown中表格数据的切割和查询
'''
from llama_index.core import VectorStoreIndex, Settings, SimpleDirectoryReader
from llama_index.llms.openai_like import OpenAILike
from llama_index.embeddings.openai_like import OpenAILikeEmbedding
from llama_index.core.node_parser.relational.markdown_element import (MarkdownElementNodeParser,
)
from llama_index.core.llms.mock import MockLLM# ================== 初始化模型 ==================
def init_models():"""初始化模型并验证"""# Embedding模型embed_model = OpenAILikeEmbedding(model_name="BAAI/bge-m3",api_base="https://api.siliconflow.cn/v1",api_key="sk-xxx",embed_batch_size=10,)llm = OpenAILike(model="deepseek-ai/DeepSeek-V3",api_base="https://api.siliconflow.cn/v1",api_key="sk-xxx",context_window=128000,is_chat_model=True,is_function_calling_model=False,)Settings.embed_model = embed_modelSettings.llm = llm# 验证模型test_embedding = embed_model.get_text_embedding("测试文本")print(f"Embedding维度验证:{len(test_embedding)}")return embed_model, llminit_models()# load documents, split into chunks
documents = SimpleDirectoryReader(r"D:\Test\muxue\data2", required_exts=[".md"]).load_data()# 2. 强大的分割器node_parser = MarkdownElementNodeParser(llm=MockLLM())
nodes = node_parser.get_nodes_from_documents(documents)index = VectorStoreIndex(nodes)from llama_index.core.query_engine import CitationQueryEnginequery_engine = CitationQueryEngine.from_args(index,similarity_top_k=3,# here we can control how granular citation sources are, the default is 512citation_chunk_size=512,
)res = query_engine.query("股本增减变动幅度多大?请使用中文回答")
print(res.response)              # LLM 输出回答
print("------来源---------------")
for node in res.source_nodes:print("相关片段:", node.text)print("片段分数:", node.score)print("片段元数据:", node.metadata)print("="*40)

结果如下:

可以看出能够精准的查询出表格中的数据。

相关网址

MarkdownElementNodeParser的测试demo代码:

https://github.com/run-llama/llama_index/blob/main/llama-index-core/tests/node_parser/test_markdown_element.py

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/85558.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/85558.shtml
英文地址,请注明出处:http://en.pswp.cn/bicheng/85558.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型在肺癌预测及个性化诊疗方案中的应用研究

目录 一、引言 1.1 研究背景与意义 1.2 研究目的与创新点 1.3 国内外研究现状 二、大模型预测肺癌的原理与方法 2.1 大模型概述 2.2 数据收集与预处理 2.3 特征工程 2.4 模型训练与优化 三、术前预测与方案制定 3.1 病情评估 3.1.1 肿瘤大小、位置及分期预测 3.1.…

如何高效分享WordPress博客文章

在当今信息过载的时代,写好一篇优秀的 WordPress 博客文章只是起点,如何有效地分享给更多读者才是成功的关键所在。对于新手用户而言,选择合适的工具和平台尤为重要。现在许多服务器提供商支持一键安装WordPress功能,比如 Hosteas…

以孝治家有机农业生态文明考察组赴邯郸心田农场考察学习

按照2025年中共中央、国务院印发了关于《乡村全面振兴规划(2024—2027年)》的战略部署。根据《乡村全面振兴规划》提出的“坚持人与自然和谐共生。牢固树立和践行绿水青山就是金山银山的理念,落实节约优先、保护优先、自然恢复为主的方针&…

解决el-input无法输入的问题 vue2+element el-input

问题描述: 在el-dialog中el-form组件来做表单提交 中文输入模式: 在初次输入的时候能输入内容 但是再次输入无法更改内容 英文输入模式: 只能输入一个英文 很多文章都是说 是双向绑定的问题 但是我仔细看了 变量的双向绑定确实没毛病 直到我发现了是因为我el-input中的图…

16_集成学习

描述 集成学习(Ensemble Learning)是一种通过结合多个模型的预测结果来提高整体性能的技术。集成学习的核心思想是通过多个弱学习器的组合,可以构建一个强学习器。 sklearn中常见的集成学习算法: Bagging:通过自助采…

学习STC51单片机43(芯片为STC89C52RCRC)智能小车9(语音识别小车)

每日一言 不必与他人比较速度,你走的每一步都在书写自己的传奇。 案例:语音识别小车 这个是最后一个功能了,其实就是用语音功能让小车自己切换各种模式,当然了我们需要先学习一下语音模块 硬件:SU-03T 这个叫做非特定…

Android 中 解析 XML 字符串的几种方式

在 Android 开发中,解析 XML 文件有多种方式,每种方式都有其特点和适用场景。常见的 XML 解析方式有 DOM 解析、SAX 解析 和 XmlPullParser 解析。 1、DOM 解析 DOM(Document Object Model)解析是一种基于树结构的解析方式&#…

云端算力革命:川翔云电脑如何重新定义创作自由

在设计与科技深度融合的时代,高性能硬件的桎梏正成为创意释放的最大障碍。川翔云电脑以云端算力为支点,通过弹性算力、高效存储、多端接入三大核心优势,让顶级 GPU 资源触手可及。 一、核心优势:突破物理极限的云端工作站 弹性算…

1.容器技术与docker环境部署

一:docker概述 因为 Docker 轻便、快速的特性,可以使应用达到快速迭代的目的。每次小的变更,马上就可以看到效果,而不用将若干个小变更积攒到一定程度再变更。每次变更一小部分其实是一种非常安全的方式,在开发环境中…

关于 RSA:RSA 加密算法过程

RSA 是一种非对称加密算法,用“公钥”加密,用“私钥”解密,保证数据传输安全。 比喻理解:锁和钥匙 想象一下: 公钥是“上锁的锁”,别人可以用它锁住箱子(加密),但打不开…

SM3算法C语言实现(无第三方库,带测试)

一、SM3算法介绍 SM3算法是中国国家密码管理局(OSCCA)于2010年发布的商用密码散列函数标准,属于我国自主设计的密码算法体系之一 ,标准文档下载地址为:SM3密码杂凑算法 。SM3算法输出长度为256位(32字节&a…

搜索二叉数(c++)

前言 在学习数据结构的时候我们学习过二叉树,那啥是搜索二叉树呢?我们知道单纯的二叉树没有增删查改的实际意义,因为没有任何限制条件的二叉树其实用处很局限。但是堆就不一样了,他就是一个二叉树加上了大小堆的限制条件&#xf…

vc MFC在opencv的Mat图像上显示中文:Mat转位MFC的CImage,画图写文字,再转回Mat

vc MFC在opencv的Mat图像上显示中文:Mat转位MFC的CImage,画图写文字,再转回Mat // Step 1 创建CImage获取dc int iImgW matImgSized.cols; int iImgH matImgSized.rows; int iChannel matImgSized.channels(); bool bCon matImgSized.is…

Docker环境部署

目录 一:Docker 概述 1.什么是 Docker 2:Docker 的优势 3.Docker 的应用场景 4:Docker 核心概念 二:Docker 安装 1:本安装方式使用阿里的软件仓库 三:Docker 镜像操作 1:获取镜像 2.查看镜像信息 3.查看镜像详细信息 4.修改镜像标签(老名字新名字) 5:删…

Axios 拦截器实现原理深度剖析:构建优雅的请求处理管道

在构建现代前端应用时,网络请求处理是关键环节。作为最流行的HTTP客户端库之一,Axios通过其拦截器机制(Interceptors)提供了强大的请求/响应处理能力。本文将深入Axios源码,揭示拦截器背后的精妙设计与实现原理。 一、…

宝塔安装nginx-http-flv-module,音视频直播,第二篇

1,先安装环境安装nginx 先卸载原有nigix nigix 大于等于 1.2.6 cd /www/server # 进入宝塔目录 yum install git -y git clone https://gitee.com/winshining/nginx-http-flv-module.git 使用源码安装nigix 在 自定义模块 区域点击「添加」,填写以下参…

低延迟4G专网:保障关键业务的实时通信

在工业互联网、智慧园区、应急通信等对“实时性”要求极高的场景中,网络延迟的高低,直接决定了业务运行的可靠性与安全性。IPLOOK依托多年核心网研发经验,推出的低延迟4G专网解决方案,正是为此类关键业务打造的“通信专线”&#…

NLP语言发展路径分享

自然语言处理初期发展历程 早期:离散表示 one-hot(只表达“有/无”,语义完全丢失)→ n-gram(局部上下文,但高维稀疏)→ TF-IDF(考虑词频与权重,但不能表达词关联&#x…

如何将文件从安卓设备传输到电脑?

将文件从 Android 手机传输到 PC 是例行公事吗?想让文件传输更轻松吗?幸运的是,您可以从本文中获得 7 种方法,其中包含详细的步骤,帮助您轻松了解如何将文件从 Android 传输到 PC,涵盖了从无线工具到传统 U…

【经验分享】浅谈京东商品SKU接口的技术实现原理

京东商品 SKU 接口的技术实现原理涉及数据建模、架构设计、接口协议、安全机制及性能优化等多个技术层面。以下从技术角度详细拆解其实现逻辑: 一、SKU 数据模型与存储架构 1. SKU 数据模型设计 核心字段定义: 基础属性:SKU ID、商品名称、…