使用PDFminer3k解析pdf为文字遇到：WARING：root:GBK-EUC-H

2023-10-14 13:20

文章标签 文字使用遇到解析 pdf gbk euc pdfminer3k waring

本文主要是介绍使用PDFminer3k解析pdf为文字遇到：WARING：root:GBK-EUC-H，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

最近需要把PDF解析为文字，查了查python的模块，发现PDFminer3k能满足需求。我使用的是 windows平台下的python3.6，python2的则下载pdfminer。

首先下载：直接 pip install pdfminer3k。

在网上找了教程代码跑了下自己用word转的pdf测试文件，可以解析成文字。

教程网址：http://blog.csdn.net/PianoOrRock/article/details/70666286?reload

然后运行自己真正需要的PDF时，报错：

刚开始我天真的以为是pdf加密了，后来查了下发现pdfminer3k自带能解密一些简单的加密方法，且遇到加密报错不是这样的。

然后重新仔细研究报错，觉得应该是pdf的字体的问题，pdfminer3k不能解析特殊字体，需要下载相应的字体包来解决。

字体包下载网站：https://github.com/euske/pdfminer/pull/71/commits/2103e5875ef04cfaf424b25d2fd0dc9535a90714#diff-11a7e5c9b1cb16f0ae7d0276f643956d

下载好了GBK-EUC-H和UniGB-UCS2-H不要解压直接放在 pdfminer/cmap文件夹下。

运行后继续报错：

PDFMiner里并没有GBK-EUC-H和UniGB-UCS2这两个编码的解码文件，所以输出了一堆cid，继续去上面的网站找到这种编码解码包，下载后不要解压直接放到上面的文件夹里：

运行，解析成功！

转载于:https://www.cnblogs.com/wzjbg/p/7644127.html

这篇关于使用PDFminer3k解析pdf为文字遇到：WARING：root:GBK-EUC-H的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/210773。 23002807@qq.com

相关文章

使用Python实现矢量路径的压缩、解压与可视化

使用Python实现矢量路径的压缩、解压与可视化

《使用Python实现矢量路径的压缩、解压与可视化》在图形设计和Web开发中,矢量路径数据的高效存储与传输至关重要,本文将通过一个Python示例,展示如何将复杂的矢量路径命令序列压缩为JSON格式,... 目录引言核心功能概述1. 路径命令解析2. 路径数据压缩3. 路径数据解压4. 可视化代码实现详解1

阅读更多...

Pandas透视表(Pivot Table)的具体使用

Pandas透视表(Pivot Table)的具体使用

《Pandas透视表(PivotTable)的具体使用》透视表用于在数据分析和处理过程中进行数据重塑和汇总,本文就来介绍一下Pandas透视表(PivotTable)的具体使用,感兴趣的可以了解一下... 目录前言什么是透视表？使用步骤1. 引入必要的库2. 读取数据3. 创建透视表4. 查看透视表总结前言

阅读更多...

Python 交互式可视化的利器Bokeh的使用

Python 交互式可视化的利器Bokeh的使用

《Python交互式可视化的利器Bokeh的使用》Bokeh是一个专注于Web端交互式数据可视化的Python库,本文主要介绍了Python交互式可视化的利器Bokeh的使用,具有一定的参考价值,感... 目录1. Bokeh 简介1.1 为什么选择 Bokeh1.2 安装与环境配置2. Bokeh 基础2

阅读更多...

Android使用ImageView.ScaleType实现图片的缩放与裁剪功能

Android使用ImageView.ScaleType实现图片的缩放与裁剪功能

《Android使用ImageView.ScaleType实现图片的缩放与裁剪功能》ImageView是最常用的控件之一,它用于展示各种类型的图片,为了能够根据需求调整图片的显示效果,Android提... 目录什么是 ImageView.ScaleType？FIT_XYFIT_STARTFIT_CENTE

阅读更多...

Golang HashMap实现原理解析

Golang HashMap实现原理解析

《GolangHashMap实现原理解析》HashMap是一种基于哈希表实现的键值对存储结构,它通过哈希函数将键映射到数组的索引位置,支持高效的插入、查找和删除操作,：本文主要介绍GolangH... 目录HashMap是一种基于哈希表实现的键值对存储结构，它通过哈希函数将键映射到数组的索引位置，支持

阅读更多...

Java学习手册之Filter和Listener使用方法

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》：本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter（过滤器）1. Filter 的工作原理2. Filter 的配置与使用二、Listen

阅读更多...

Pandas使用AdaBoost进行分类的实现

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost？使用 AdaBoost 的步骤安装必要的库步骤一：数据准备步骤二：模型

阅读更多...

使用Pandas进行均值填充的实现

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据（NaN值）是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充？为什么选择均值填充？均值填充的步骤实际代码示例总结在数据分析和处理过程中，缺失数

阅读更多...

如何使用 Python 读取 Excel 数据

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》：本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读

阅读更多...

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》：本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

阅读更多...