本文主要是介绍python数据分析:PDFminer3k解析pdf为文字遇到:WARING:root:GBK-EUC-H,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
然后运行自己真正需要的PDF时,报错:
刚开始我天真的以为是pdf加密了,后来查了下发现pdfminer3k自带能解密一些简单的加密方法,且遇到加密报错不是这样的。
然后重新仔细研究报错,觉得应该是pdf的字体的问题,pdfminer3k不能解析特殊字体,需要下载相应的字体包来解决。
字体包下载网站:https://github.com/euske/pdfminer/pull/71/commits/2103e5875ef04cfaf424b25d2fd0dc9535a90714#diff-11a7e5c9b1cb16f0ae7d0276f643956d
下载好了GBK-EUC-H和UniGB-UCS2-H不要解压直接放在 pdfminer/cmap文件夹下。
运行后继续报错:
PDFMiner里并没有GBK-EUC-H和UniGB-UCS2这两个编码的解码文件,所以输出了一堆cid,继续去上面的网站找到这种编码解码包,下载后不要解压直接放到上面的文件夹里:
运行,解析成功!
这篇关于python数据分析:PDFminer3k解析pdf为文字遇到:WARING:root:GBK-EUC-H的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!