在数据处理和分析领域，PDF 文件常常包含丰富的文本、表格和图形信息。然而，从 PDF 中提取这些数据并非易事，尤其是当需要保留格式和颜色信息时。幸运的是，Python 社区提供了多个强大的库来帮助我们完成这项任务，其中最常用的两个库是 PyMuPDF 和 pdfplumber。本文将详细介绍这两个库的特点、使用方法，并通过实际案例对比它们的优缺点。

一、PyMuPDF 和 pdfplumber 简介

1. PyMuPDF (fitz)

PyMuPDF 是一个基于 MuPDF 的高性能 Python 库，用于处理 PDF 文件。它支持多种功能，包括文本提取、图像提取、表格提取、页面渲染等。PyMuPDF 的底层是用 C++ 编写的，因此在处理大型文件时表现出色。

2. pdfplumber

pdfplumber 是一个基于 pdfminer.six 的 Python 库，专注于从 PDF 文件中提取文本、表格和图像。它提供了简单直观的 API，适合需要精确文本位置和表格提取的场景。

二、安装方法

PyMuPDF

pip install pymupdf

PyMuPDF 支持 Python 3.8 及以上版本。

pdfplumber

pip install pdfplumber

pdfplumber 适合 Python 3.8、3.9、3.10 和 3.11。

三、功能对比

1. 文本提取

PyMuPDF：支持多种文本提取格式，包括纯文本、HTML、JSON 和 XML。
pdfplumber：提取文本时保留原始布局，支持自定义提取参数，如 x_tolerance 和 y_tolerance。

2. 表格提取

PyMuPDF：可以提取表格结构，但需要手动解析 JSON 或字典格式。
pdfplumber：提供了更直观的表格提取方法，支持直接将表格数据转换为 Pandas DataFrame。

3. 图像提取

PyMuPDF：支持提取页面中的所有图像，并可以将页面渲染为图像。
pdfplumber：支持提取图像，但功能相对有限。

4. 性能

PyMuPDF：处理速度更快，适合处理大型 PDF 文件。
pdfplumber：在提取文本和表格时速度较慢，但提取精度更高。

四、实战案例

1. 提取文本

PyMuPDF

import fitz  # PyMuPDFdef extract_text_from_pdf(file_path, output_path):doc = fitz.open(file_path)full_text = ""for page in doc:full_text += page.get_text()doc.close()with open(output_path, "w", encoding="utf-8") as file:file.write(full_text)return f"文本已保存到 {output_path}"result = extract_text_from_pdf("example.pdf", "output.txt")
print(result)

pdfplumber

import pdfplumberwith pdfplumber.open("example.pdf") as pdf:first_page = pdf.pages[0]text = first_page.extract_text()print(text)

2. 提取表格

PyMuPDF

import fitz  # PyMuPDFdoc = fitz.open("example.pdf")
page = doc[0]
table_data = page.get_text("dict")
print(table_data)

pdfplumber

import pdfplumber
import pandas as pdwith pdfplumber.open("example.pdf") as pdf:page = pdf.pages[0]table = page.extract_table()df = pd.DataFrame(table[1:], columns=table[0])print(df)

3. 提取图像

PyMuPDF

import fitz  # PyMuPDFdoc = fitz.open("example.pdf")
page = doc[0]
for img_index, img in enumerate(page.get_images(full=True)):xref = img[0]base_image = doc.extract_image(xref)img_bytes = base_image["image"]with open(f"page_{page.number+1}_img_{img_index+1}.png", "wb") as f:f.write(img_bytes)

pdfplumber

import pdfplumberwith pdfplumber.open("example.pdf") as pdf:page = pdf.pages[0]for img in page.images:x0, y0, x1, y1 = img["x0"], img["y0"], img["x1"], img["y1"]im = page.to_image().originalcropped_im = im.crop((x0, y0, x1, y1))cropped_im.save(f"page_{page.page_number}_img_{img['object_type']}.png")