超級實用案例，Python 提取 PDF 指定内容生成新PDF

很多時候，我們并不會預知希望提取的頁号，而是希望将包含指定内容的頁面提取合并為新PDF，本文就以兩個真實需求為例進行講解。

【注】資料、代碼、技術交流，文末擷取

01 需求描述

資料是一份有286頁的上市公司公開年報PDF，大緻如下

現在需要利用 Python 完成以下兩個需求

需求一：提取所有包含戰略二字的頁面并合并新PDF

需求二：提取所有包含圖檔的頁面，并分别儲存為 PDF 檔案

02 前置知識和邏輯梳理

2.1 `PyPDF2` 子產品實作合并

PyPDF2

導入子產品的代碼常常是：

from PyPDF2 import PdfFileReader, PdfFileWriter

這裡導入了兩個方法：

PdfFileReader 可以了解為讀取器
PdfFileWriter 可以了解為寫入器

利用

PyPDF2

實作合并運用的一下邏輯：

讀取器将所有pdf讀取一遍
讀取器将讀取的内容交給寫入器
寫入器統一輸出到一個新pdf

隐含知識點：讀取器隻能将讀取的内容一頁一頁交給寫入器

2.2 擷取與添加頁面

之前我們的推文中提到這兩個代碼，下面列出作為複習：

.getPage 擷取特定頁
.addPage 添加特定頁

2.3 圖檔和文字的處理

要實作本文的需求還要做到很重要的一個判斷：确定頁面中有無包含的文字或圖檔

判斷是否包含特定的文字比較簡單，周遊每一頁的時候都将包含的文本抽提出，做字元串層面的判斷即可，代碼思路：

利用 pdfplumber 打開PDF 檔案
擷取指定的頁，或者周遊每一頁
利用 .extract_text() 方法提取目前頁的文字
判斷 “戰略” 是否在提取的文字中

判斷是否包含圖檔，思路和上面是類似的，但方法不同。圖檔考慮用正則的方法識别，用

fitz

和

re

配合，具體見下文代碼

03 代碼實作

3.1 需求一的實作

首先來完成需求一的任務，導入需要用到的庫：讀取寫入PDF檔案的

PyPDF2

以及抽提文本的

pdfplumber

from PyPDF2 import PdfFileReader, PdfFileWriter
import pdfplumber

指定檔案所在的路徑，同時初始化寫入器，将檔案交給讀取器：

path = r'C:\xxxxxx'
pdf_writer = PdfFileWriter()
pdf_reader = PdfFileReader(path + r'\公司年報.PDF')

以上下文管理器形式通過

pdfplumber

打開檔案，同時用

.getNumPages

擷取讀取器的最大頁利于周遊每一頁來抽提文字：

with pdfplumber.open(path + r'\公司年報.PDF') as pdf:
    for i in range(pdf_reader.getNumPages()):
        page = pdf.pages[i]
        print(page.extract_text())

我們抽提文字的目的是用來判斷，将符合要求的頁碼作為讀取器

.getPage

的參數，最後用

.addPage

交給寫入器：

with pdfplumber.open(path + r'\公司年報.PDF') as pdf:
    for i in range(pdf_reader.getNumPages()):
        page = pdf.pages[i]
        print(page.extract_text())
        if '戰略' in page.extract_text():
            pdf_writer.addPage(pdf_reader.getPage(i))
            print(i + 1, page.extract_text())

完成識别後讓寫入器輸出為需要的檔案名：

with open(path + r'\new_公司年報.pdf', 'wb') as out:
    pdf_writer.write(out)

至此，我們就完成了包含特定文字内容頁面的提取，并整合成一個PDF。所有的頁面均包含“戰略”二字：

需求一完整代碼如下，感興趣的讀者可以自行研究

from PyPDF2 import PdfFileReader, PdfFileWriter
import pdfplumber

path = r'C:\xxx'
pdf_writer = PdfFileWriter()
pdf_reader = PdfFileReader(path + r'\公司年報.PDF')

with pdfplumber.open(path + r'\公司年報.PDF') as pdf:
    for i in range(pdf_reader.getNumPages()):
        page = pdf.pages[i]
        print(page.extract_text())
        if '戰略' in page.extract_text():
            pdf_writer.addPage(pdf_reader.getPage(i))
            print(i + 1, page.extract_text())

with open(path + r'\new_公司年報1.pdf', 'wb') as out:
    pdf_writer.write(out)

3.2 需求二的實作

接下來完成需求二的任務。首先導入需要的庫：

from PyPDF2 import PdfFileReader, PdfFileWriter
import fitz
import re
import os

指定檔案所在的路徑：

path = r'C:\xxxxxx'

正則識别圖檔的部分不細講，之前的推文已經介紹過，我們直接看代碼：

page_lst = []
checkImg = r"/Subtype(?= */Image)"
pdf = fitz.open(path + r'\公司年報.PDF')
lenXREF = pdf._getXrefLength()

for i in range(lenXREF):
    text = pdf._getXrefString(i)
    isImage = re.search(checkImg, text)
    if isImage:
        page_lst.append(i)

print(page_lst)

擷取到所有包含圖檔的頁面後，再結合讀取器和寫入器的配合就能完成新 PDF 的産生。注意本需求是所有圖檔單獨輸出，是以擷取到頁面後交給寫入器直接輸出成檔案：

pdf_reader = PdfFileReader(path + r'\公司年報.PDF')
for page in page_lst:
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    with open(path + r'\公司年報_{}.pdf'.format(page + 1), 'wb') as out:
        pdf_writer.write(out)

至此也完成了第二個需求。需要說明的是目前沒有非常完美提取PDF圖檔的方法，本案例介紹的方法識别圖檔也并不穩定。讀者可以利用自己的資料多做嘗試。完整代碼如下：

from PyPDF2 import PdfFileReader, PdfFileWriter
import fitz
import re
import os

path = r'C:\xxx'

page_lst = []
checkImg = r"/Subtype(?= */Image)"
pdf = fitz.open(path + r'\公司年報.PDF')
lenXREF = pdf._getXrefLength()
for i in range(lenXREF):
    text = pdf._getXrefString(i)
    isImage = re.search(checkImg, text)
    if isImage:
        page_lst.append(i)

print(page_lst)

pdf_reader = PdfFileReader(path + r'\公司年報.PDF')
for page in page_lst:
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    with open(path + r'\公司年報_{}.pdf'.format(page + 1), 'wb') as out:
        pdf_writer.write(out)

超級實用案例，Python 提取 PDF 指定内容生成新PDF

01 需求描述

02 前置知識和邏輯梳理

2.1 `PyPDF2` 子產品實作合并

2.2 擷取與添加頁面

2.3 圖檔和文字的處理

03 代碼實作

3.1 需求一的實作

3.2 需求二的實作

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

詳解STM32單片機的堆棧

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

超級實用案例，Python 提取 PDF 指定内容生成新PDF

01 需求描述

02 前置知識和邏輯梳理

2.1​ ​PyPDF2​ ​ 子產品實作合并

2.2 擷取與添加頁面

2.3 圖檔和文字的處理

03 代碼實作

3.1 需求一的實作

3.2 需求二的實作

繼續閱讀

2.1 `PyPDF2` 子產品實作合并