当人们探讨如何让人工智能系统更好地从文档中查找和使用信息时，通常关注的是令人瞩目的算法和前沿的大型语言模型。但问题是：如果文本提取的质量很差，那么后续的努力都将付诸东流。本文探讨OCR质量如何影响检索增强生成（RAG）系统，尤其是在处理扫描文档和PDF文件的常见场景时。

OCR错误在RAG流程中级联，将严重影响人工智能系统的性能。拥有2.56亿个参数的SmolDocling能够实现对文档的整体化处理，进而生成结构化输出，有效提升了RAG的效果。

通过在RAG流程中探索光学字符识别（OCR）错误的级联效应，并使用SmolDocling（一种端到端处理文档的超紧凑视觉语言模型）提出了一种现代解决方案。OHRBench研究报告（Zhang et al., 2024）提供了令人信服的证据，表明即使是现代OCR解决方案也难以处理现实世界的文档。展示了只有2.56亿个参数的SmolDocling（Nassar等人，2025年）如何通过整体理解文档而不是逐个字符处理，以输出结构化数据，从而显著提升下游RAG性能。

引言

“垃圾进，垃圾出”的原则不仅仅是一个口号——它是基于文档的RAG系统的现实。当人工智能社区对最新的嵌入模型和检索算法充满兴趣，许多人忽视了一个基本的瓶颈：从现实世界的文档中提取文本的质量。

最近进行的一些研究开始揭示这个问题。Zhang等人（2024）引入了OHRBench，表明当前的OCR解决方案都无法胜任为RAG系统构建高质量知识库的任务。这是对OCR技术应用现状的一个相当糟糕的评价。

错综复杂的OCR现状

1.好消息与坏消息

好消息是，现代OCR技术已经取得了长足进步。谷歌的Tesseract现在已发展到4.0+版本，使用LSTM神经网络，在干净的印刷的文本上实现令人印象深刻的准确率（Patel等人，2020年）。而坏消息是，出现了一些问题：

根据最近进行的基准研究，历史文档中20%或更高的OCR错误率仍然很常见（Bazzo等人，2020）。Rigaud等人（2021）记录了数字图书馆和专业文档类型中的类似问题。

Hamdi等人（2022）的一项基准研究对Tesseract、Amazon Textract和Google Document AI进行了比较，发现Document AI提供了最佳结果，基于服务器的处理器（Textract and Document AI）的性能明显优于Tesseract，尤其是在背景嘈杂的文档上。但即使是表现最好的OCR系统，也难以应对复杂的布局和历史文件。

2.为什么OCR系统面临多种困难和挑战

OCR系统面临的挑战不仅仅是老旧的或褪色的文档（这些文件会有问题）。现代OCR面临几个持续存在的问题：

（1）复杂的布局：多栏格式、表格和混合文本/图像内容使大多数OCR系统感到困惑。

（2）质量参差不齐：即使是来自同一来源的文档，扫描质量也可能大不相同。

（3）语言和字体多样性：非拉丁文字和不常见的字体会显著降低性能。

（4）现实世界的干扰：咖啡渍、手写注释、邮票——这些让文件变得真实的事物也让它们难以阅读。

正如OHRBench论文（Zhang et al., 2024）所述，语义噪声和格式噪声这两种主要的OCR噪声类型，被认为是影响下游RAG性能的主要因素。

OCR错误如何通过RAG级联

1.多米诺骨牌效应

当OCR错误进入RAG流程时，会发生以下情况——这并不美妙：

（1）分块混乱：复杂的语义分块算法试图在文本中找到句子边界，例如“出现严重症状的患者（Thepatient presentedwith severesymptoms）”，然后要么创建无意义的小块，或者要么大量的文本。

（2）嵌入混淆：当嵌入模型看到“diabetus”这种错误拼写而不是“diabetes”（糖尿病）时，它可能会将该分块放在完全不同的语义空间中。如果将这种情况出现在数千个文档中，其向量空间将变得混乱不堪。

（3）检索失败：用户搜索“糖尿病治疗（diabetes treatmen）”，但是相关的数据块被索引在“diabetus”或“diabetes”下——找不到匹配项。

（4）产生幻觉：由于上下文质量不佳或缺失，LLM开始编造内容来填补空白。

2.对RAG性能的实际影响

OHRBench的研究提供了发人深省的数据。他们发现OCR噪声对RAG系统有显著影响，在所有测试配置中均出现性能损。这不仅仅是几个百分点的问题——而是系统变得无法有效地用于关键应用程序。

Bazzo等人（2020年）在详细调查中发现，虽然OCR错误在平均水平上可能看似影响不大，但单一查询可能会受到很大影响。调查表明，从5%的错误率开始，就会注意到显著的影响，并且报告了在存在错误的情况下索引术语数量的显著增加——本质上，OCR错误会创建虚假的词汇表，进而导致索引规模膨胀。

建议：采用SmolDocling的现代解决方案

1.超越传统的OCR

在经历了传统OCR流程的各种挫折之后，采用了一种完全不同的方法，即使用SmolDocling，这是IBM Research和HuggingFace于2025年3月发布的一款超紧凑视觉语言模型（Nassar等人，2025年）。

这就是一切得以改变的原因：与传统的OCR→后处理→分块→嵌入流程不同。SmolDocling将文档图像直接处理成结构化的输出。它只有2.56亿个参数，其规模足够小，可以在消费级GPU上运行，同时提供与大27倍的模型相媲美的结果。

2.SmolDocling架构

该模型使用了一个巧妙的架构，它结合了：

直接处理文档图像的视觉编码器（具有9300万个参数的SigLIP）
生成结构化输出的语言模型（具有1.35亿个参数的SmolLM-2变体）
有效压缩视觉特征的积极像素洗牌策略

其特别之处在于，SmolDocling不只是提取文本——它从整体上理解文档结构。表保持表格的形式，代码块保持缩进，公式得以保留，元素之间的空间关系也被捕获。

3.DocTags：实际有效的结构化输出

smoldoling的关键创新之一是DocTags，这是一种专门为文档表示而设计的标记格式。而不是转储非结构化文本，可以得到结构化的输出与精确的位置信息：

1 <picture><loc_77><loc_45><loc_423><loc_135>
2 <other>
3 <caption><loc_58><loc_150><loc_441><loc_177>
4 Figure 1: SmolDocling/SmolVLM architecture. SmolDocling converts images of document pages to DocTags sequences.
5 </caption> 
6 </picture> 
7 <text><loc_58><loc_191><loc_441><loc_211>In this work, we outline how we close the gaps left by publicly available datasets and establish a training approach to achieve end-to-end, full-featured document conversion through a vision-language model.
8 </text> 
9 <unordered_list> 
10 <list_item><loc_80><loc_218><loc_441><loc_259>· SmolDocling: An ultra-compact VLM for end-to-end document conversion
11 </list_item> 
12 <list_item><loc_80><loc_263><loc_441><loc_297>· We augment existing document pre-training datasets with additional feature annotations
13 </list_item> 
14 </unordered_list> 
15 <table> 
16 <table_row> 
17 <table_cell><loc_50><loc_320><loc_150><loc_340>Test Name</table_cell> 
18 <table_cell><loc_151><loc_320><loc_250><loc_340>Result</table_cell> 
19 <table_cell><loc_251><loc_320><loc_350><loc_340>Normal Range</table_cell> 
20 </table_row> 
21 <table_row> 
22 <table_cell><loc_50><loc_341><loc_150><loc_361>Glucose</table_cell> 
23 <table_cell><loc_151><loc_341><loc_250><loc_361>126 mg/dL</table_cell> 
24 <table_cell><loc_251><loc_341><loc_350><loc_361>70-100 mg/dL</table_cell> 
25 </table_row> 
26 </table>

请注意每个元素如何包含指定精确边界框坐标（x1，y1，x2，y2）的<loc_X>标签。这意味着：