Python实现pdf文档转txt的方法示例
本文实例讲述了Python实现pdf文档转txt的方法。分享给大家供大家参考,具体如下:
首先,这是一个比较粗糙的版本,因为已经够用了,而且对pdf的格式不熟悉,所以暂时没有进一步优化。
还有,这是转成txt的,所以如果是有图片的pdf是无法保存图片的。
至于本来就是图片的文本,这里是无法分析出来的。那些图片的pdf,估计要用图形匹配的方式来处理,类似于超速拍摄的车牌识别。
不过这样的程度,已经不是文本处理了。扯远了。。。
转出来的文字,好像按照pdf里面的所展示的来换行了,看不到有什么规则还原,我也不知道怎么处理,将就着用吧。
另外,初始代码是网上找的,最初地址不知道哪里了。
用到了第三方库pdfminier
pdfminer库的地址https://pypi.python.org/pypi/pdfminer3k
下载后,用cmd执行命令setup.pyinstall
安装完之后打开eclipse会弹出要求加载一些东西,点击确定就行了。
再来看看代码:
importos.path frompdfminer.pdfparserimportPDFParser,PDFDocument frompdfminer.pdfinterpimportPDFResourceManager,PDFPageInterpreter frompdfminer.converterimportPDFPageAggregator frompdfminer.layoutimportLTTextBoxHorizontal,LAParams frompdfminer.pdfinterpimportPDFTextExtractionNotAllowed classCPdf2TxtManager(): ''''' classdocs ''' def__init__(self): ''''' Constructor ''' defchangePdfToText(self,filePath): file=open(path,'rb')#以二进制读模式打开 #用文件对象来创建一个pdf文档分析器 praser=PDFParser(file) #创建一个PDF文档 doc=PDFDocument() #连接分析器与文档对象 praser.set_document(doc) doc.set_parser(praser) #提供初始化密码 #如果没有密码就创建一个空的字符串 doc.initialize() #检测文档是否提供txt转换,不提供就忽略 ifnotdoc.is_extractable: raisePDFTextExtractionNotAllowed #创建PDf资源管理器来管理共享资源 rsrcmgr=PDFResourceManager() #创建一个PDF设备对象 laparams=LAParams() device=PDFPageAggregator(rsrcmgr,laparams=laparams) #创建一个PDF解释器对象 interpreter=PDFPageInterpreter(rsrcmgr,device) pdfStr='' #循环遍历列表,每次处理一个page的内容 forpageindoc.get_pages():#doc.get_pages()获取page列表 interpreter.process_page(page) #接受该页面的LTPage对象 layout=device.get_result() #这里layout是一个LTPage对象里面存放着这个page解析出的各种对象一般包括LTTextBox,LTFigure,LTImage,LTTextBoxHorizontal等等想要获取文本就获得对象的text属性, forxinlayout: if(isinstance(x,LTTextBoxHorizontal)): pdfStr=pdfStr+x.get_text()+'\n' fileNames=os.path.splitext(filePath) file2=open(fileNames[0]+'.txt','wb')#保存这些内容 file2.write(pdfStr.encode()) file2.close() file.close() if__name__=='__main__': ''''' 解析pdf文本,保存到txt文件中 ''' path=r'C:\Users\Administrator\Desktop\《精力管理》.pdf' pdf2TxtManager=CPdf2TxtManager() pdf2TxtManager.changePdfToText(path)
更多Python相关内容感兴趣的读者可查看本站专题:《Python文件与目录操作技巧汇总》、《Python编码操作技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》
希望本文所述对大家Python程序设计有所帮助。