解决PDF 转图片时丢文字的一种可能方式

2023-07-04 19:00:07 61

问题

Python中PDF转图片一般用的是pdf2image。有时我们会发现PDF转出来的图片都是空白，或者缺失了一些字，具体表现就是一些应该有字的区域是空白。

由于某些原因我不能把出现问题的文件放上来，不过大致就是这个情况。

主要的代码如下：

images=pdf2image.convert_from_path('/path/to/pdf',output_folder='images/',fmt='jpg')

运行时可能会发现代码没有任何异常，但是结果不对。

分析和解决

其实pdf2image底层默认使用的是pdftoppm来转图片，我们可以直接使用其来测试有问题的PDF，会发现输出了一些警告：

除pdftoppm外，pdf2image在两种情况下会使用pdftocairo来转图片，具体是：

当要转成tif/tiff格式时

当transparent=True（默认为False）且要转成png/tif/tiff时

Missinglanguagepackfor'Adobe-GB1'mapping

很明显是缺失了语言包。

而且字缺失，自然而然想到的是字体缺失，即系统中没有PDF中的字体。

我们需要找到对应的字体，然后安装上。

一般来说，Linux系统中，直接复制相应的字体文件到/usr/share/fonts/目录下即可，可以使用fc-list:lang=zh-cn来查看当前系统有哪些中文字体。

对于中文来说，NotoCJK字体可以覆盖所有的字，可以尝试下载安装此字体，有些系统可能自带。

有了字体，你再试的时候可能会发现还是不行，因为你还需要另一个东西：poppler-data。

这个东西是干嘛用的？根据作者的描述：

Thispackageconsistsofencodingfilesforusewithpoppler.Theencodingfilesareoptionalandpopplerwillautomaticallyreadthemiftheyarepresent.Wheninstalled,theencodingfilesenablespopplertocorrectlyrenderCJKandCyrrilicproperly.WhilepopplerislicensedundertheGPL,theseencodingfileshavedifferentlicense,andthusdistributedseparately.

大致就是这个包里是一些编码文件，可以让poppler正确渲染CJK文字。

我们可以通过apt来安装：

sudoaptinstallpoppler-data

然后再次尝试，应该就可以成功转成正常的图片了。

总结一下，你需要两个东西：

正确的字体文件

poppler-data

Reference

以上为个人经验，希望能给大家一个参考，也希望大家多多支持毛票票。如有错误或未考虑完全的地方，望不吝赐教。

声明：本文内容来源于网络，版权归原作者所有，内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：czq8825#qq.com（发邮件时，请将#更换为@）进行举报，并提供相关证据，一经查实，本站将立刻删除涉嫌侵权内容。

解决PDF 转图片时丢文字的一种可能方式

问题

分析和解决

热门推荐

随机推荐