Portable Document Format(可移植文檔格式),或者PDF是一種文件格式,可以用于跨操作系統(tǒng)的呈現(xiàn)和文檔交換。盡管PDF最初是由Adobe發(fā)明的,但它現(xiàn)在是由國際標(biāo)準(zhǔn)化組織(ISO)維護(hù)的開放標(biāo)準(zhǔn)。你可以通過使用PyPDF2包在Python中處理已先存在的PDF。
10余年專注成都網(wǎng)站制作,成都定制網(wǎng)頁設(shè)計,個人網(wǎng)站制作服務(wù),為大家分享網(wǎng)站制作知識、方案,網(wǎng)站設(shè)計流程、步驟,成功服務(wù)上千家企業(yè)。為您提供網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)頁設(shè)計及定制高端網(wǎng)站建設(shè)服務(wù),專注于成都定制網(wǎng)頁設(shè)計,高端網(wǎng)頁制作,對成都混凝土攪拌罐車等多個領(lǐng)域,擁有豐富的網(wǎng)站建設(shè)經(jīng)驗。PyPDF2是一個純Python包,可用于許多不同類型的PDF操作。
本文將帶你了解如何執(zhí)行以下操作:
從Python中提取PDF中的文檔信息
一、pyPdf,PyPDF2和PyPDF4的歷史
最初的pyPdf軟件包于2005年發(fā)布。pyPdf的最后一個正式版本是在2010年。大約一年后,一家名為Phasit的公司贊助了一個名為PyPDF2的pyPdf分支。該代碼編寫為向后與原始代碼兼容,并且用了好多年,效果一直很好,其最后一個版本是在2016年。
有一個名為PyPDF3的軟件包簡短系列版本,然后該項目被重命名為PyPDF4。所有這些項目都完全相同,但pyPdf和PyPDF2 +之間的大區(qū)別在于后者版本增加了Python 3支持。Python 3的原始pyPdf有一個不同的Python 3分支,但是這個分支已經(jīng)多年沒有維護(hù)了。
雖然最近放棄了PyPDF2,但新的PyPDF4與PyPDF2沒有完全的向后兼容性。本文中的大多數(shù)示例都可以與PyPDF4完美配合,但也有一些不能,這就是為什么PyPDF4在本文中沒有更多的特色。隨意用PyPDF4替換PyPDF2的導(dǎo)入,看看它是如何工作的。
二、pdfrw:一個替代的PDF操作包
Patrick Maupin創(chuàng)建了一個名為pdfrw的軟件包,它可以完成許多與PyPDF2相同的工作。除了加密的特殊情況外,本文后面提到PyPDF2的所有操作,pdfrw均可以實現(xiàn)。
pdfrw的大區(qū)別在于它與ReportLab軟件包集成,因此你可以使用一些或所有預(yù)先存在的PDF構(gòu)建一個新的PDF。
三、PyPDF2的安裝
如果使用Anaconda而不是常規(guī)Python,可以使用pip或conda安裝PyPDF2。以下是使用pip安裝PyPDF2的方法:
$ pip install pypdf2
由于PyPDF2沒有任何依賴,因此安裝非常快。
四、如何從Python中提取PDF文檔信息
我們可以使用PyPDF2從PDF中提取元數(shù)據(jù)和一些文本,尤其是當(dāng)在預(yù)先存在的PDF文件上執(zhí)行某些類型的自動化時是非常有用的。
以下是當(dāng)前可以提取的數(shù)據(jù)類型:
可以在自己的電腦上隨便找一個PDF文件進(jìn)行嘗試操作。下面是使用該PDF編寫一些代碼,并了解如何訪問這些屬性:
from PyPDF2 import PdfFileReader def extract_information(pdf_path): with open(pdf_path, 'rb') as f: pdf = PdfFileReader(f) information = pdf.getDocumentInfo() number_of_pages = pdf.getNumPages() txt = f""" Information about {pdf_path}: Author: {information.author} Creator: {information.creator} Producer: {information.producer} Subject: {information.subject} Title: {information.title} Number of pages: {number_of_pages} """ print(txt) return information if __name__ == '__main__': path = 'xxxx.pdf' extract_information(path)
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。