[问题]wkhtmltopdf转换网页中文乱码问题解决方案

2023-10-10 08:20

本文主要是介绍[问题]wkhtmltopdf转换网页中文乱码问题解决方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 我在使用的过程中遇到有的网页是中文是乱码,有的网页中文是正常显示的,通过搜索引擎寻找答案的时候,发现还有人遇到中午呢是空白的,没有显示。

   在该开源项目的问题解答中有作者给出的一些回复:

http://code.google.com/p/wkhtmltopdf/issues/detail?id=436&q=gb2312

http://code.google.com/p/wkhtmltopdf/issues/detail?id=782&q=gb2312

   这些问题主要是基于Linux环境下中文字体没有安装所造成的,而我遇到的问题是中文可以显示,却是乱码,于是关于这个问题我做了几个方面的测试:

   1.中文字体问题

   2.网页编码

1
<meta http-equiv= "content-type"  content= "text/html;charset=utf-8" >

   3.文件编码

   测试一:(百度首页网页的charset=utf-8)

114945788.png

115026792.png

    可以看出中文正常的。

   测试二(51cto博客网页的charset=gb2312):

121406150.png

121344910.png

    可以看出,网页内容编码格式为:gb2312的中文没法显示。

   测试三:

   查看网页中使用到的字体:

115506377.png

   通过与本地计算机的字体对比,排除了这一可能。其实,转换后的PDF文件中文能够显示,虽然是乱码,也能够排除字体出的问题。

  测试四:

  由于考虑到wkhtmltopdf使用到webkit引擎,第二中测试遇到网页内容编码格式为:gb2312的造成中文无法显示,于是使用程序将网页抓取下进行转化。

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
@Test
     public  void  test2()  throws  IOException {
         URL url =  new  URL( "http://aiilive.blog.51cto.com/1925756/1332579" );
         HttpURLConnection conn = (HttpURLConnection) url.openConnection();
         conn.setRequestMethod( "GET" );
         conn.connect();
         if  (conn.getResponseCode() == HttpURLConnection.HTTP_OK) {
             BufferedInputStream bi =  new  BufferedInputStream(
                     conn.getInputStream());
             BufferedOutputStream bo =  new  BufferedOutputStream(
                     new  FileOutputStream( new  File( "D:\\1332579.html" )));
             byte [] bts =  new  byte [ 1024 ];
             int  len = bi.read(bts);
             while  (len != - 1 ) {
                 bo.write(bts,  0 , len);
                 len = bi.read(bts);
             }
             bi.close();
             bo.close();
             System.out.println( "create ok" );
         }
     }

   通过本地转化,并使网页内容中的:charset=utf-8,然后进行转换,这么做的原因是既然使用了webkit引擎正好charset=utf-8是给浏览器看的,所以就这么用了。

   141641703.png

   上述的测试还是失败的。!!!

   在官方的指南中说明可以指定编码格式:--encoding 编码格式  ;经过测试是不行的,这样的问题网上有好多人遇到,也有好多人没有遇到,却把网页很正常的转成功了,多数是编码上使用UTF-8巧合而已。

   测试五:

   将抓取下来的网页文件进行处理:

   1.文件编码utf-8;charset=utf-8; 结果:中文正常

   2.文件编码utf-8;charset=gb2312; 结果:中文正常

   3.文件编码Ansi; charset=gb2312 ; 结果:中文乱码


   143636840.png


    实验做到这,可以看出问题所在,wkhtmltopdf转换html文件的时候,这个html文件来源可能是一个url,也可能就是本地的一个文本文件,从测试一中百度首页中文正常显示和测试二51cto博客中文不能够正常显示,再从测试五中看出,wkhtmltopdf转换工作的时候,--encoding参数实际上指的是文件存储的编码格式。

    所以通过URL从服务器端请求而来的网页编码文件格式不能确定时后,会使用文件内容编码格式输出,所以得出chartset=utf8和charset=gb2312通过url请求,中文前者可以显示,后者不能。

 


PS:Jsp页面编码解释:

      1.pageEncoding="UTF-8" 是指JSP页面保存时使用的编码方式,也就是JSP文件保存在硬盘上所使用的编码方式 
      2.charset="UTF-8" 是指JSP页面输入输出使用的编码方式,很多服务器在没有找到pageEncoding时,有charset代替pageEncoding。

      我在测试我们自家的网站的时候就没有遇到wkhtmltopdf中文乱码问题,我们的JSP页面格式和内容输出编码格式是统一的,并且都是UTF-8。

  

  PPS:Web开发编码问题一直依赖就像头皮屑一样困扰人们,团队开发关于文件编码格式做到统一,受益是无穷的!



本文转自 secondriver 51CTO博客,原文链接:http://blog.51cto.com/aiilive/1340243,如需转载请自行联系原作者

这篇关于[问题]wkhtmltopdf转换网页中文乱码问题解决方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/179215

相关文章

Linux samba共享慢的原因及解决方案

《Linuxsamba共享慢的原因及解决方案》:本文主要介绍Linuxsamba共享慢的原因及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux samba共享慢原因及解决问题表现原因解决办法总结Linandroidux samba共享慢原因及解决

在java中如何将inputStream对象转换为File对象(不生成本地文件)

《在java中如何将inputStream对象转换为File对象(不生成本地文件)》:本文主要介绍在java中如何将inputStream对象转换为File对象(不生成本地文件),具有很好的参考价... 目录需求说明问题解决总结需求说明在后端中通过POI生成Excel文件流,将输出流(outputStre

python+opencv处理颜色之将目标颜色转换实例代码

《python+opencv处理颜色之将目标颜色转换实例代码》OpenCV是一个的跨平台计算机视觉库,可以运行在Linux、Windows和MacOS操作系统上,:本文主要介绍python+ope... 目录下面是代码+ 效果 + 解释转HSV: 关于颜色总是要转HSV的掩膜再标注总结 目标:将红色的部分滤

SpringBoot启动报错的11个高频问题排查与解决终极指南

《SpringBoot启动报错的11个高频问题排查与解决终极指南》这篇文章主要为大家详细介绍了SpringBoot启动报错的11个高频问题的排查与解决,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一... 目录1. 依赖冲突:NoSuchMethodError 的终极解法2. Bean注入失败:No qu

找不到Anaconda prompt终端的原因分析及解决方案

《找不到Anacondaprompt终端的原因分析及解决方案》因为anaconda还没有初始化,在安装anaconda的过程中,有一行是否要添加anaconda到菜单目录中,由于没有勾选,导致没有菜... 目录问题原因问http://www.chinasem.cn题解决安装了 Anaconda 却找不到 An

Spring定时任务只执行一次的原因分析与解决方案

《Spring定时任务只执行一次的原因分析与解决方案》在使用Spring的@Scheduled定时任务时,你是否遇到过任务只执行一次,后续不再触发的情况?这种情况可能由多种原因导致,如未启用调度、线程... 目录1. 问题背景2. Spring定时任务的基本用法3. 为什么定时任务只执行一次?3.1 未启用

MySQL新增字段后Java实体未更新的潜在问题与解决方案

《MySQL新增字段后Java实体未更新的潜在问题与解决方案》在Java+MySQL的开发中,我们通常使用ORM框架来映射数据库表与Java对象,但有时候,数据库表结构变更(如新增字段)后,开发人员可... 目录引言1. 问题背景:数据库与 Java 实体不同步1.1 常见场景1.2 示例代码2. 不同操作

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

利用Python开发Markdown表格结构转换为Excel工具

《利用Python开发Markdown表格结构转换为Excel工具》在数据管理和文档编写过程中,我们经常使用Markdown来记录表格数据,但它没有Excel使用方便,所以本文将使用Python编写一... 目录1.完整代码2. 项目概述3. 代码解析3.1 依赖库3.2 GUI 设计3.3 解析 Mark

Vue中组件之间传值的六种方式(完整版)

《Vue中组件之间传值的六种方式(完整版)》组件是vue.js最强大的功能之一,而组件实例的作用域是相互独立的,这就意味着不同组件之间的数据无法相互引用,针对不同的使用场景,如何选择行之有效的通信方式... 目录前言方法一、props/$emit1.父组件向子组件传值2.子组件向父组件传值(通过事件形式)方