文章目录

    • C# 使用iText获取PDF的trailer数据
      • iText 核心概念
      • C# 代码示例
        • 步骤 1: 确保已安装 iText
        • 步骤 2: C# 代码
        • 程序运行效果
      • 解读 Trailer 的输出
      • 总结

C# 使用iText获取PDF的trailer数据

开发程序debug的时候,看到了PDF有个trailer数据,挺有意思,于是考虑用代码把它读出来,那么就用到我们常用的iText框架了。

实际上,使用 iText 获取 PDF 的 trailer 数据是一个稍微底层一些的操作,但完全可以实现。trailer 是 PDF 文件结构的核心部分,它告诉解析器如何找到文件的关键部分,比如交叉引用表 (xref)、文档信息字典 (/Info) 和文档根对象 (/Root)。

在 iText 中,这个操作被很好地封装了。本文将详细说明能从 trailer 中获得什么信息。

iText 核心概念

  • 高级抽象 vs. 底层访问: iText 提供了高级的类,如 PdfDocumentInfoPdfCatalog,来方便地访问 trailer 指向的内容。例如,pdfDocument.GetDocumentInfo() 会自动找到 trailer 中的 /Info 条目并解析它。
  • 直接访问: 同时,iText 也允许你直接获取 trailer 本身,它是一个 PdfDictionary 对象。这对于需要检查非标准字段或进行底层分析的程序员来说非常有用。

C# 代码示例

这个示例将演示如何打开一个 PDF 文件,并同时使用高级方法和底层方法来检查 trailer 相关的数据。

步骤 1: 确保已安装 iText

请在你的项目中通过 NuGet 包管理器安装 itext

Install-Package itext
步骤 2: C# 代码
using System;
using System.IO;
using iText.Kernel.Pdf;public class PdfTrailerInspector
{public static void InspectPdfTrailer(string filePath){if (!File.Exists(filePath)){Console.WriteLine($"错误:文件不存在 '{filePath}'");return;}try{// 使用 PdfReader 和 PdfDocument 打开 PDF 文件using (var pdfReader = new PdfReader(filePath))using (var pdfDocument = new PdfDocument(pdfReader)){Console.WriteLine($"--- 正在分析文件: {Path.GetFileName(filePath)} ---");// --- 方法 1: 使用高级 API 访问 Trailer 指向的内容 (推荐的常规做法) ---Console.WriteLine("\n=== 通过高级 API 获取 Trailer 指向的信息 ===");// GetDocumentInfo() 会读取 trailer 的 /Info 字典PdfDocumentInfo docInfo = pdfDocument.GetDocumentInfo();Console.WriteLine($"信息字典 (来自 /Info): Creator = {docInfo.GetCreator()}, Producer = {docInfo.GetProducer()}");// GetCatalog() 会读取 trailer 的 /Root 字典,这是文档的入口点PdfCatalog catalog = pdfDocument.GetCatalog();Console.WriteLine($"文档目录 (来自 /Root): 页面模式 = {catalog.GetPageMode()}, 页面布局 = {catalog.GetPageLayout()}");// --- 方法 2: 直接访问和遍历 Trailer 字典本身 (底层操作) ---Console.WriteLine("\n=== 直接访问 Trailer 字典的原始键值对 ===");// 使用 GetTrailer() 直接获取 Trailer 字典对象PdfDictionary trailer = pdfDocument.GetTrailer();if (trailer != null){// 遍历 Trailer 字典中的所有条目foreach (var key in trailer.KeySet()){PdfObject value = trailer.Get(key); // 值 (可能是数字、引用等)Console.WriteLine($"键: {key}, 值: {value}, 值的类型: {value.GetType().Name}");}// 你也可以直接获取特定的键Console.WriteLine("\n--- 单独获取 Trailer 中的关键值 ---");PdfObject size = trailer.Get(PdfName.Size);PdfObject root = trailer.Get(PdfName.Root);PdfObject info = trailer.Get(PdfName.Info);PdfObject id = trailer.Get(PdfName.ID);Console.WriteLine($"大小 (Size): {size}");Console.WriteLine($"根对象引用 (Root): {root}");Console.WriteLine($"信息字典引用 (Info): {info}");Console.WriteLine($"文件ID (ID): {id}");}else{Console.WriteLine("无法获取 Trailer 字典。");}}}catch (Exception ex){Console.WriteLine($"读取 PDF 时发生错误: {ex.Message}");}}public static void Main(string[] args){// 请将 "C:\\path\\to\\your\\document.pdf" 替换为你的 PDF 文件路径string pdfPath = "C:\\path\\to\\your\\document.pdf"; InspectPdfTrailer(pdfPath);}
}
程序运行效果

效果

解读 Trailer 的输出

当你运行上面的代码并查看“直接访问 Trailer 字典”部分的输出时,你会看到类似下面的内容:

键: /Size, 值: 25, 值的类型: PdfNumber
键: /Root, 值: 23 0 R, 值的类型: PdfIndirectReference
键: /Info, 值: 1 0 R, 值的类型: PdfIndirectReference
键: /ID, 值: [<0DDB5968...>, <F3C3B2A6...>], 值的类型: PdfArray

这里是对这些关键条目的解释:

  • /Size: (类型: PdfNumber) 表示 PDF 文件中对象的总数(大约值)。
  • /Root: (类型: PdfIndirectReference) 这是一个间接引用,指向文档的根对象(Catalog 字典)。23 0 R 的意思是“第 23 号对象,第 0 代”。iText 使用这个引用来找到文档的所有页面和其他核心内容。pdfDocument.GetCatalog() 就是帮你完成了这个查找过程。
  • /Info: (类型: PdfIndirectReference) 同样是一个间接引用,指向文档的信息字典(包含作者、标题等元数据)。1 0 R 指向第 1 号对象。pdfDocument.GetDocumentInfo() 会自动解析这个引用。
  • /ID: (类型: PdfArray) 这是一个包含两个字符串的数组,用于唯一标识该 PDF 文件。第一个字符串在文件创建时生成,并且永不改变。第二个字符串在每次保存文件时都会更新。这对于追踪文件的版本非常有用。
  • /Prev (可选): 如果文件是增量更新的,这个键会指向前一个版本的交叉引用表的位置。
  • /Encrypt (可选): 如果文件被加密,这个键会指向加密字典。

总结

  1. 常规需求: 如果我们只是想获取作者、标题、页面内容等信息,使用 iText 的高级 API(GetDocumentInfo(), GetCatalog(), GetPage() 等)就足够了,它们在后台为你处理了 trailer 的解析。
  2. 底层分析: 如果你需要检查 trailer 的所有原始条目,或者查找可能存在的非标准字段,或者想验证 PDF 结构,那么使用 pdfDocument.GetTrailer() 是最直接和强大的方法。

上面的代码提供了两种,我们可以根据具体需求选择使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92378.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92378.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/92378.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

京东流量资产基于湖仓架构的落地实践

在当今数字化商业浪潮中&#xff0c;数据无疑是企业的核心资产&#xff0c;而流量数据更是电商巨头京东业务运转的关键驱动力。它广泛应用于搜索推荐、广告投放等多个核心业务场景&#xff0c;直接影响着用户体验和商业效益。但随着业务规模的不断膨胀&#xff0c;传统架构在处…

​​​​​​​【Datawhale AI夏令营】多模态RAG财报问答挑战赛:学习笔记与上分思考

一、 初识赛题——从迷茫到清晰刚看到赛题时&#xff0c;坦白说有些不知所措。“多模态”、“RAG”、“图文混排PDF”&#xff0c;这些词汇组合在一起&#xff0c;听起来就像一个庞大而复杂的工程。但当我强迫自己静下心来&#xff0c;从“终点”&#xff08;提交格式和评审规则…

数据挖掘2.6 Perceptron Modeling 感知器建模

Perceptron Modeling 感知器建模Linear Discriminants 线性判别式Loss Function 损失函数misclassification 误分类0-1 Loss/Error function 0-1损失函数Hinge Loss Function 铰链损失函数Optimization 优化算法Linear Discriminants 线性判别式 线性判别式公式 f(x;w)w1x(1)w…

使用qemu运行与GDB调试内核

目录 一、前期准备 二、内核编译 三、QEMU与GDB 1、QEMU调试参数 2、gdb vmlinux 一、前期准备 内核镜像&#xff1a;bzimage gdb&#xff1a;x86_64 QEMU&#xff1a;qemu-system-x86_64 前置知识&#xff1a; &#xff08;1&#xff09;内核编译 &#xff08;2&#x…

欧盟 Radio Equipment Directive (RED)

欧盟 Radio Equipment Directive (RED) ——从 2014/53/EU 原文到 2025-08-01 强制生效的网络安全新规&#xff0c;一次看懂全部关键点。1. 法规身份与适用范围要素内容指令全称Directive 2014/53/EU on radio equipment取代指令1999/5/EC (R&TTE)适用产品所有“有意发射/接…

【FastExcel】解决ReadSheet在Map中获取对象不准确问题(已提交PR并合并到开源社区)

解决问题&#xff1a;源码ReadSheet在同一个Map中获取对象不准确问题 PR&#xff1a;Fixed the issue where different ReadSheet objects could not get the correct value when comparing them. 一&#xff1a;问题场景 ReadSheet在同一个Map中获取对象不准确(如Map<…

【网络安全入门基础教程】TCP/IP协议深入解析(非常详细)零基础入门到精通,收藏这一篇就够了

前言 这是小编给粉丝盆友们整理的网络安全入门到精通系列第三章计算机网络中TCP/IP协议的解析&#xff0c;喜欢的朋友们&#xff0c;记得给大白点赞支持和收藏一下&#xff0c;关注我&#xff0c;学习黑客技术。TCP/IP协议包含了一系列的协议&#xff0c;也叫TCP/IP协议族&…

Latex中公式部分输入正体的字母\mathrm{c}

Latex中公式部分输入正体的字母\mathrm{c}“\mathrm{c}”如何在Word中输入\mathrm{c}“\mathrm{c}” 在 LaTeX 中&#xff0c;“\mathrm{c}” 用于在数学模式中排版“c”这个字母为罗马体&#xff08;正体&#xff09;。“\mathrm” 是罗马字体命令&#xff0c;它告诉LaTeX以罗…

Document Picture-in-Picture API拥抱全新浮窗体验[参考:window.open]

在前端开发中&#xff0c;我们经常会遇到这样的需求&#xff1a;弹出一个浮动窗口来显示一些实时信息、工具栏或视频内容。过去我们会用 window.open()&#xff0c;后来越来越多的开发者倾向于使用 Modal。但现在&#xff0c;一个更现代的 API 出现了——Document Picture-in-P…

【指南版】网络与信息安全岗位系列(三):安全运维工程师

一、安全运维工程师到底做什么&#xff1f;—— 用校园场景帮你理解简单说&#xff0c;安全运维工程师就像 “网络世界的安保队长 系统管家”&#xff1a;既要实时监控网络和系统的 “异常动静”&#xff08;类似学校保安巡逻查隐患&#xff09;&#xff0c;又要负责日常的安全…

matlab——simulink学习(5向NXP库中添加新模块)

向NXP库中添加新的函数模块一、环境二、库添加模块1.打开文件夹2.创建文件3.添加S-Function三、浏览器添加模块一、环境 Windows10、MATLAB R2022b、安装NXP的S32K1XX系列工具包 二、库添加模块 1.打开文件夹 在文件系统中找到安装工具包的位置&#xff0c;用文件资源管理器…

使用ProxySql实现MySQL的读写分离

ProxySQL简介1、ProxySQL是一款开源的使用C编写的MySQL集群代理中间件&#xff1b;2、用于在MySQL数据库和客户端之间进行负载均衡、查询缓存、故障转移和查询分发&#xff1b;3、它可以作为中间层插入到应用程序和数据库之间&#xff1b;4、特点是高效灵活&#xff0c;使用简单…

WiFi 核心概念与实战用例全解

&#x1f4d6; 推荐阅读&#xff1a;《Yocto项目实战教程:高效定制嵌入式Linux系统》 &#x1f3a5; 更多学习视频请关注 B 站&#xff1a;嵌入式Jerry 1. WiFi基础与协议 WiFi&#xff08;Wireless Fidelity&#xff09;是基于IEEE 802.11协议族的无线局域网&#xff08;WLAN…

面向远程智能终端的超低延迟RTSP|RTMP视频SDK架构与实践指南

引言&#xff1a;遥操作时代&#xff0c;视觉链路已成“主控神经元” 从工业巡检到应急救援&#xff0c;从城市安防到边境监控&#xff0c;远程操控正成为智能终端与人机协同的重要落点。而在这些场景中&#xff0c;“视觉”不再只是用来观看的工具&#xff0c;而是贯穿感知、…

C++中的继承:从基础到复杂

目录 前言 1. 继承的基本概念 2. 继承方式与访问控制 3. 派生类与基类的对象转换 4. 继承中的作用域 5. 派生类的默认成员函数 6. 继承中的特殊关系 6.1 继承与友元 6.2 继承与静态成员 7. 复杂的菱形继承问题 8. 继承与组合的选择 9. 常见面试题 总结 前言 继承…

Eyevinn 彻底改变开源部署模式

该咨询公司借助Akamai云平台&#xff0c;为其创新的开源平台和可持续收益分成模式提供强大支持。 "时间就是金钱&#xff0c;我们通过Akamai云平台快速将开源云平台投入生产。" ——Eyevinn Technology研发副总裁 Jonas Birm实现可持续视频流媒体服务 自2013年以来&…

17day-人工智能-机器学习-分类算法-KNN

1. 什么是knn算法knn算法全名叫做k-近邻算法&#xff08;K-Nearest Neighbors&#xff0c;简称KNN&#xff09;&#xff0c;看到名字是不是能想到是算距离的&#xff0c;第一个k是指超参数的意思&#xff0c;就是可以认为设置的意思&#xff0c;这里是指最近的k个样本。2. 为什…

12-netty基础-手写rpc-编解码-04

netty系列文章&#xff1a; 01-netty基础-socket02-netty基础-java四种IO模型03-netty基础-多路复用select、poll、epoll04-netty基础-Reactor三种模型05-netty基础-ByteBuf数据结构06-netty基础-编码解码07-netty基础-自定义编解码器08-netty基础-自定义序列化和反序列化09-n…

解决 Windows 下的“幽灵文件”——记一次与带空格的 .gitignore 文件的艰难斗争

引言 你是否遇到过这样的情况&#xff1a;一个文件明明躺在你的文件夹里&#xff0c;ls 或 dir 命令都能清楚地看到它&#xff0c;但无论你用什么方法尝试删除&#xff0c;系统都冷酷地告诉你“找不到文件”&#xff1f; 就在今天&#xff0c;我就遇到了这样一个“幽灵”般的 .…