解决PDF 转图片时丢文字的一种可能方式
问题
Python中PDF转图片一般用的是pdf2image。有时我们会发现PDF转出来的图片都是空白,或者缺失了一些字,具体表现就是一些应该有字的区域是空白。
由于某些原因我不能把出现问题的文件放上来,不过大致就是这个情况。
主要的代码如下:
images=pdf2image.convert_from_path('/path/to/pdf',output_folder='images/',fmt='jpg')
运行时可能会发现代码没有任何异常,但是结果不对。
分析和解决
其实pdf2image底层默认使用的是pdftoppm来转图片,我们可以直接使用其来测试有问题的PDF,会发现输出了一些警告:
除pdftoppm外,pdf2image在两种情况下会使用pdftocairo来转图片,具体是:
当要转成tif/tiff格式时
当transparent=True(默认为False)且要转成png/tif/tiff时
Missinglanguagepackfor'Adobe-GB1'mapping
很明显是缺失了语言包。
而且字缺失,自然而然想到的是字体缺失,即系统中没有PDF中的字体。
我们需要找到对应的字体,然后安装上。
一般来说,Linux系统中,直接复制相应的字体文件到/usr/share/fonts/目录下即可,可以使用fc-list:lang=zh-cn来查看当前系统有哪些中文字体。
对于中文来说,NotoCJK字体可以覆盖所有的字,可以尝试下载安装此字体,有些系统可能自带。
有了字体,你再试的时候可能会发现还是不行,因为你还需要另一个东西:poppler-data。
这个东西是干嘛用的?根据作者的描述:
Thispackageconsistsofencodingfilesforusewithpoppler.Theencodingfilesareoptionalandpopplerwillautomaticallyreadthemiftheyarepresent.Wheninstalled,theencodingfilesenablespopplertocorrectlyrenderCJKandCyrrilicproperly.WhilepopplerislicensedundertheGPL,theseencodingfileshavedifferentlicense,andthusdistributedseparately.
大致就是这个包里是一些编码文件,可以让poppler正确渲染CJK文字。
我们可以通过apt来安装:
sudoaptinstallpoppler-data
然后再次尝试,应该就可以成功转成正常的图片了。
总结一下,你需要两个东西:
正确的字体文件
poppler-data
Reference
以上为个人经验,希望能给大家一个参考,也希望大家多多支持毛票票。如有错误或未考虑完全的地方,望不吝赐教。
声明:本文内容来源于网络,版权归原作者所有,内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:czq8825#qq.com(发邮件时,请将#更换为@)进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。