好资源导航 » 文章资讯 » Python提取PDF内容的方法(文本、图像、线条等)

Python提取PDF内容的方法(文本、图像、线条等)

2023-08-13 15:33:04 404

1.安装PDFminer3k

使用pip命令安装

pipinstallpdfminer3k

2.编写测试

你可以在这里获得官方参考：PDFMiner

如果你不喜欢看英文的官方文档，这里的翻译也许对你有帮助：中文PDFMiner文档

下面的程序，我拓展了官方给出的例子，你可以通过这个例子统计出来你的pdf文件一共包含哪些内容，比如文本框，曲线，图片等

#!/usr/bin/python
#-*-coding:utf-8-*-

__author__='yooongchun'

importsys
importimportlib
importlib.reload(sys)

frompdfminer.pdfparserimportPDFParser,PDFDocument
frompdfminer.pdfinterpimportPDFResourceManager,PDFPageInterpreter
frompdfminer.converterimportPDFPageAggregator
frompdfminer.layoutimport*
frompdfminer.pdfinterpimportPDFTextExtractionNotAllowed

'''
解析pdf文件，获取文件中包含的各种对象
'''


#解析pdf文件函数
defparse(pdf_path):
fp=open(pdf_path,'rb')#以二进制读模式打开
#用文件对象来创建一个pdf文档分析器
parser=PDFParser(fp)
#创建一个PDF文档
doc=PDFDocument()
#连接分析器与文档对象
parser.set_document(doc)
doc.set_parser(parser)

#提供初始化密码
#如果没有密码就创建一个空的字符串
doc.initialize()

#检测文档是否提供txt转换，不提供就忽略
ifnotdoc.is_extractable:
raisePDFTextExtractionNotAllowed
else:
#创建PDf资源管理器来管理共享资源
rsrcmgr=PDFResourceManager()
#创建一个PDF设备对象
laparams=LAParams()
device=PDFPageAggregator(rsrcmgr,laparams=laparams)
#创建一个PDF解释器对象
interpreter=PDFPageInterpreter(rsrcmgr,device)

#用来计数页面，图片，曲线，figure，水平文本框等对象的数量
num_page,num_image,num_curve,num_figure,num_TextBoxHorizontal=0,0,0,0,0

#循环遍历列表，每次处理一个page的内容
forpageindoc.get_pages():#doc.get_pages()获取page列表
num_page+=1#页面增一
interpreter.process_page(page)
#接受该页面的LTPage对象
layout=device.get_result()
forxinlayout:
ifisinstance(x,LTImage):#图片对象
num_image+=1
ifisinstance(x,LTCurve):#曲线对象
num_curve+=1
ifisinstance(x,LTFigure):#figure对象
num_figure+=1
ifisinstance(x,LTTextBoxHorizontal):#获取文本内容
num_TextBoxHorizontal+=1#水平文本框对象增一
#保存文本内容
withopen(r'test.txt','a')asf:
results=x.get_text()
f.write(results+'\n')
print('对象数量：\n','页面数：%s\n'%num_page,'图片数：%s\n'%num_image,'曲线数：%s\n'%num_curve,'水平文本框：%s\n'
%num_TextBoxHorizontal)


if__name__=='__main__':
pdf_path=r'C:\Users\fanyu\Desktop\pdf\test.pdf'
parse(pdf_path)

其实在上面的layout对象中有更多的内容可提取，这个自己按需来写就好，然后对曲线，文本框等对象，都会有位置属性，可直接获取,自己debug查看以下对象属性获取即可。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持毛票票。

返回顶部
3162201930
czq8825@qq.com

Python提取PDF内容的方法(文本、图像、线条等)

热门推荐

随机推荐