全新NVIDIA Llama Nemotron Nano视觉语言模型在OCR基准测试中准确率夺冠

PDF、图表、图形和仪表板等文档是丰富的数据源，当这些数据被提取和整理后，能够为决策制定提供有价值的洞察。从自动化财务报表处理到改进商业智能工作流程，智能文档处理正在成为企业AI解决方案的核心组件。

企业可以通过NVIDIA Llama Nemotron Nano VL加速AI开发过程。这个多模态视觉语言模型能够以高精度和高效率读取、理解和分析多种文档类型。

这个生产就绪的模型为文档理解设立了新基准，专为可扩展的AI智能体而设计，能够以无与伦比的速度从多模态文档中读取和提取洞察，将视觉语言模型(VLMs)推向企业数据处理的前沿。

介绍Llama Nemotron Nano VL：顶级文档理解能力

Llama Nemotron Nano VL是NVIDIA Nemotron家族的最新成员，是一个专门为高级智能文档处理和理解而设计的先进AI模型。该模型可通过NVIDIA NIM API获得，也可从Hugging Face下载，能够精确地从复杂文档中提取多样化信息，如PDF、图表、图形、表格、图解和仪表板——全部在单个GPU上完成。

通过集成尖端的多模态能力，Llama Nemotron Nano VL在多图像理解方面表现出色，专门从事智能文档处理，确保企业能够快速从其业务文档中获取关键洞察。

无论是回答问题、提取表格，还是理解图解等视觉元素，Llama Nemotron Nano VL都经过优化，能够处理广泛的文档级理解任务，包括：

问答(Q/A)
文本和表格处理
图表和图形解析
信息图表和图解解释

凭借该模型的效率重点，企业可以部署复杂的文档理解系统，而无需承担高昂的基础设施成本。

通过VLMs实现高精度文档智能

Llama Nemotron Nano VL的价值通过严格的基准测试得到证明，特别是通过OCRBench v2。这个综合基准测试在广泛的真实世界场景中测试光学字符识别(OCR)和文档理解能力。

OCRBench v2密切反映了企业日常处理的金融、医疗、法律和政府部门常见文档，如发票、收据和合同。这些结果对于寻求文档分析自动化的企业高度相关，并展示了Llama Nemotron Nano VL在文本定位、元素解析和表格提取方面的卓越准确性。

OCRBench v2基准数据集涵盖了图1中显示的以下能力和相关任务。
在这里插入图片描述

图1. OCRBenchV2中八种文本阅读能力和任务的概述，每种颜色表示一种能力类型。图片来自Chiang等人，LLM-as-a-Judge arXiv:2501.00321

基准结果：智能文档处理的新标准

Llama Nemotron Nano VL OCRBench V2基准结果反映了NVIDIA开源模型的性能，这些模型通过NVIDIA工具和专业知识得到增强，用于提供尖端AI技术。通过使用NeMo Retriever Parse数据定制Llama-3.1 8B，并添加C-RADIO视觉变换器，使Llama Nemotron Nano VL能够出色地解析文本并从复杂的视觉布局中提取有意义的洞察。通过结合这些技术，Llama Nemotron Nano VL在智能文档处理方面提供了高性能，使其成为希望自动化和扩展文档处理操作的企业的强大工具。
在这里插入图片描述

图2. OCRBenchV2排行榜 显示了Llama Nemotron Nano VL在文本识别、文本引用和文本定位方面的表现

OCRBench v2和OCR评估

OCRBench v2是一个先进的基准，测试VLMs中的OCR和文档理解能力。其综合评估框架确保模型在与真实世界企业用例相关的任务上得到严格测试，例如：

发票和收据处理
合规文档分析
合同和法律文档审查
银行和财务报表自动化
医疗和保险文档处理
财务报表、趋势分析

OCRBench v2的数据集包含10,000个人工验证的问答对，用于对多种文档类型的模型性能进行细致评估。覆盖31个真实世界场景，OCRBench v2确保在其上测试的模型能够处理企业文档处理工作流程中通常面临的多样化和复杂挑战。

基于顶级NVIDIA研究的行业领先性能

第一个NVIDIA Nemotron VLM是NVIDIA研究多年努力的结果。包括以下在内的几个关键因素，促成了Llama Nemotron Nano VL的行业领先性能。

高质量训练数据

Llama Nemotron Nano VL使用高质量、多样化的训练数据进行训练，这些数据经过精心策划，以确保模型能够处理各种文档类型和格式。训练数据包括来自多个领域的文档，如金融、医疗、法律和技术文档，确保模型具有广泛的适用性。

先进的架构设计

该模型采用了先进的架构设计，结合了最新的视觉和语言处理技术。通过集成C-RADIO视觉变换器和Llama-3.1 8B语言模型，Llama Nemotron Nano VL能够有效地处理视觉和文本信息，实现卓越的多模态理解能力。

优化的推理性能

Llama Nemotron Nano VL经过优化，能够在单个GPU上高效运行，使企业能够在不需要大量计算资源的情况下部署高性能的文档理解解决方案。这种效率使得该模型特别适合需要快速处理大量文档的企业应用。

表1. Llama Nemotron Nano VL的关键技术特性

特性	描述
模型架构	基于Llama-3.1 8B的多模态视觉语言模型
视觉编码器	C-RADIO视觉变换器
支持的文档类型	PDF、图表、表格、图解、仪表板等
部署要求	单个GPU
API可用性	NVIDIA NIM API和Hugging Face

实际应用场景

Llama Nemotron Nano VL在多个行业和用例中展现出强大的应用潜力：

金融服务

自动化财务报表分析
发票和收据处理
合规文档审查
风险评估报告分析

医疗保健

医疗记录数字化
保险理赔文档处理
临床试验数据提取
医学图像报告分析

法律服务

合同审查和分析
法律文档搜索
案例研究分析
合规性检查

制造业

技术文档处理
质量控制报告分析
供应链文档管理
安全手册数字化

通过将文本与仪表板中的图表等视觉特征相关联，该模型能够理解复杂的多模态内容。

表2. Llama Nemotron Nano VL的关键用例

行业	用例	优势
金融	财务报表分析	提高准确性和处理速度
医疗	医疗记录处理	减少人工错误，提高效率
法律	合同审查	加快审查过程，提高一致性
制造	技术文档管理	改善知识管理和访问