Python 处理 PDF：PyMuPDF 安装及使用详解

技术文摘

2024-12-31 00:57:04 小编

在 Python 编程领域，处理 PDF 文件是一项常见但又具有一定挑战性的任务。PyMuPDF 库为我们提供了强大而便捷的功能来应对这一需求。

让我们来了解 PyMuPDF 的安装。可以通过 pip 命令轻松完成安装：

pip install PyMuPDF

安装完成后，就可以开始使用 PyMuPDF 来处理 PDF 了。以下是一个简单的示例，展示如何打开一个 PDF 文件并获取其页数：

import fitz  # PyMuPDF 的主要模块

def get_pdf_page_count(pdf_path):
    doc = fitz.open(pdf_path)
    page_count = doc.pageCount
    doc.close()
    return page_count

pdf_file = "your_pdf_file.pdf"
print(get_pdf_page_count(pdf_file))

除了获取页数，PyMuPDF 还可以提取文本内容。例如：

def extract_text_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    text = ""
    for page in doc:
        text += page.getText("text")
    doc.close()
    return text

print(extract_text_from_pdf(pdf_file))

另外，PyMuPDF 支持对 PDF 进行页面的旋转、裁剪等操作。比如，要旋转页面：

def rotate_page(pdf_path, page_number, angle):
    doc = fitz.open(pdf_path)
    page = doc[page_number - 1]
    page.setRotation(angle)
    doc.save("rotated_pdf.pdf")
    doc.close()

rotate_page(pdf_file, 1, 90)  # 旋转第一页 90 度

PyMuPDF 在处理 PDF 时，还能进行图片的提取。假设要从 PDF 中提取所有图片：

def extract_images_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    for page in doc:
        image_list = page.getImageList()
        for image_index, image_info in enumerate(image_list):
            xref = image_info[0]
            pix = fitz.Pixmap(doc, xref)
            if pix.n < 5:  # this is GRAY or RGB
                pix.writePNG("image_%s.png" % image_index)
            else:  # CMYK: convert to RGB first
                pix = fitz.Pixmap(fitz.csRGB, pix)
                pix.writePNG("image_%s.png" % image_index)
    doc.close()

extract_images_from_pdf(pdf_file)

PyMuPDF 是一个功能强大且易于使用的 Python 库，为处理 PDF 文件提供了丰富的工具和方法。无论是简单的读取信息，还是复杂的编辑操作，都能通过 PyMuPDF 高效地实现。在实际应用中，根据具体的需求灵活运用 PyMuPDF 的功能，可以极大地提高工作效率。

TAGS: Python 处理 PDF PyMuPDF 安装 PyMuPDF 使用详解 PyMuPDF

万千站长工具

技术文摘

Python 处理 PDF：PyMuPDF 安装及使用详解

欢迎使用万千站长工具！