Python中pdfplumber如何提取pdf中的表格數(shù)據(jù)-創(chuàng)新互聯(lián)

小編給大家分享一下Python中pdfplumber如何提取pdf中的表格數(shù)據(jù)，希望大家閱讀完這篇文章后大所收獲，下面讓我們一起去學習方法吧！

創(chuàng)新互聯(lián)公司專注于前鋒企業(yè)網(wǎng)站建設,響應式網(wǎng)站,電子商務商城網(wǎng)站建設。前鋒網(wǎng)站建設公司,為前鋒等地區(qū)提供建站服務。全流程定制網(wǎng)站制作，專業(yè)設計，全程項目跟蹤，創(chuàng)新互聯(lián)公司專業(yè)和態(tài)度為您提供的服務

作為一個強大的pdf文件解析工具，pdfplumber庫可迅速將pdf文檔轉(zhuǎn)換為易于處理的txt文檔，并輸出pdf文檔的字符、頁面、頁碼等信息，還可進行頁面可視化操作。使用pdfplumber庫前需先安裝，即在cmd命令行中輸入：

pip install pdfplumber

pdfplumber庫提供了兩種pdf表格提取函數(shù)，分別為.extract_tables( )及.extract_table( )，兩種函數(shù)提取結(jié)果存在差異。為進行演示，我們網(wǎng)站上下載了一份短期融資券主體信用評級報告，為pdf格式。任意選取某一表格，其界面如下：

（1）.extract_tables( )

可輸出頁面中所有表格，并返回一個嵌套列表，其結(jié)構(gòu)層次為table→row→cell。此時，頁面上的整個表格被放入一個大列表中，原表格中的各行組成該大列表中的各個子列表。若需輸出單個外層列表元素，得到的便是由原表格同一行元素構(gòu)成的列表。例如，我們執(zhí)行如下程序：

import pdfplumber 
with pdfplumber.open(r'F:python財務報表主體評級報告.pdf')  as pdf:
   page = pdf.pages[45]    #設置操作頁面 
   for row inpage.extract_tables() :
          print(row)
          print(row[0])   #打印外層列表第一個元素

輸出結(jié)果：

（2）.extract_table( )

返回多個獨立列表，其結(jié)構(gòu)層次為row→cell。若頁面中存在多個行數(shù)相同的表格，則默認輸出頂部表格；否則，僅輸出行數(shù)最多的一個表格。此時，表格的每一行都作為一個單獨的列表，列表中每個元素即為原表格的各個單元格內(nèi)容。若需輸出某個元素，得到的便是具體的數(shù)值或字符串。如下：

with pdfplumber.open(r'F:python財務報表主體評級報告.pdf') as pdf:
     page = pdf.pages[45]
     for row in page.extract_table() : 
         print(row) 
         print(row[0])      #打印每個列表對應的第一個元素

輸出結(jié)果：

感謝你能夠認真閱讀完這篇文章，希望小編分享Python中pdfplumber如何提取pdf中的表格數(shù)據(jù)內(nèi)容對大家有幫助，同時也希望大家多多支持創(chuàng)新互聯(lián)，關(guān)注創(chuàng)新互聯(lián)網(wǎng)站設計公司行業(yè)資訊頻道，遇到問題就找創(chuàng)新互聯(lián)，詳細的解決方法等著你來學習!

本文名稱：Python中pdfplumber如何提取pdf中的表格數(shù)據(jù)-創(chuàng)新互聯(lián)
當前URL：http://weahome.cn/article/jsieh.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python中pdfplumber如何提取pdf中的表格數(shù)據(jù)-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管