[问题]wkhtmltopdf转换网页中文乱码问题解决方案

2023-10-10 08:20

本文主要是介绍[问题]wkhtmltopdf转换网页中文乱码问题解决方案,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 我在使用的过程中遇到有的网页是中文是乱码,有的网页中文是正常显示的,通过搜索引擎寻找答案的时候,发现还有人遇到中午呢是空白的,没有显示。

   在该开源项目的问题解答中有作者给出的一些回复:

http://code.google.com/p/wkhtmltopdf/issues/detail?id=436&q=gb2312

http://code.google.com/p/wkhtmltopdf/issues/detail?id=782&q=gb2312

   这些问题主要是基于Linux环境下中文字体没有安装所造成的,而我遇到的问题是中文可以显示,却是乱码,于是关于这个问题我做了几个方面的测试:

   1.中文字体问题

   2.网页编码

1
<meta http-equiv= "content-type"  content= "text/html;charset=utf-8" >

   3.文件编码

   测试一:(百度首页网页的charset=utf-8)

114945788.png

115026792.png

    可以看出中文正常的。

   测试二(51cto博客网页的charset=gb2312):

121406150.png

121344910.png

    可以看出,网页内容编码格式为:gb2312的中文没法显示。

   测试三:

   查看网页中使用到的字体:

115506377.png

   通过与本地计算机的字体对比,排除了这一可能。其实,转换后的PDF文件中文能够显示,虽然是乱码,也能够排除字体出的问题。

  测试四:

  由于考虑到wkhtmltopdf使用到webkit引擎,第二中测试遇到网页内容编码格式为:gb2312的造成中文无法显示,于是使用程序将网页抓取下进行转化。

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
@Test
     public  void  test2()  throws  IOException {
         URL url =  new  URL( "http://aiilive.blog.51cto.com/1925756/1332579" );
         HttpURLConnection conn = (HttpURLConnection) url.openConnection();
         conn.setRequestMethod( "GET" );
         conn.connect();
         if  (conn.getResponseCode() == HttpURLConnection.HTTP_OK) {
             BufferedInputStream bi =  new  BufferedInputStream(
                     conn.getInputStream());
             BufferedOutputStream bo =  new  BufferedOutputStream(
                     new  FileOutputStream( new  File( "D:\\1332579.html" )));
             byte [] bts =  new  byte [ 1024 ];
             int  len = bi.read(bts);
             while  (len != - 1 ) {
                 bo.write(bts,  0 , len);
                 len = bi.read(bts);
             }
             bi.close();
             bo.close();
             System.out.println( "create ok" );
         }
     }

   通过本地转化,并使网页内容中的:charset=utf-8,然后进行转换,这么做的原因是既然使用了webkit引擎正好charset=utf-8是给浏览器看的,所以就这么用了。

   141641703.png

   上述的测试还是失败的。!!!

   在官方的指南中说明可以指定编码格式:--encoding 编码格式  ;经过测试是不行的,这样的问题网上有好多人遇到,也有好多人没有遇到,却把网页很正常的转成功了,多数是编码上使用UTF-8巧合而已。

   测试五:

   将抓取下来的网页文件进行处理:

   1.文件编码utf-8;charset=utf-8; 结果:中文正常

   2.文件编码utf-8;charset=gb2312; 结果:中文正常

   3.文件编码Ansi; charset=gb2312 ; 结果:中文乱码


   143636840.png


    实验做到这,可以看出问题所在,wkhtmltopdf转换html文件的时候,这个html文件来源可能是一个url,也可能就是本地的一个文本文件,从测试一中百度首页中文正常显示和测试二51cto博客中文不能够正常显示,再从测试五中看出,wkhtmltopdf转换工作的时候,--encoding参数实际上指的是文件存储的编码格式。

    所以通过URL从服务器端请求而来的网页编码文件格式不能确定时后,会使用文件内容编码格式输出,所以得出chartset=utf8和charset=gb2312通过url请求,中文前者可以显示,后者不能。

 


PS:Jsp页面编码解释:

      1.pageEncoding="UTF-8" 是指JSP页面保存时使用的编码方式,也就是JSP文件保存在硬盘上所使用的编码方式 
      2.charset="UTF-8" 是指JSP页面输入输出使用的编码方式,很多服务器在没有找到pageEncoding时,有charset代替pageEncoding。

      我在测试我们自家的网站的时候就没有遇到wkhtmltopdf中文乱码问题,我们的JSP页面格式和内容输出编码格式是统一的,并且都是UTF-8。

  

  PPS:Web开发编码问题一直依赖就像头皮屑一样困扰人们,团队开发关于文件编码格式做到统一,受益是无穷的!



本文转自 secondriver 51CTO博客,原文链接:http://blog.51cto.com/aiilive/1340243,如需转载请自行联系原作者

这篇关于[问题]wkhtmltopdf转换网页中文乱码问题解决方案的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/179215

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

Vue3 的 shallowRef 和 shallowReactive:优化性能

大家对 Vue3 的 ref 和 reactive 都很熟悉,那么对 shallowRef 和 shallowReactive 是否了解呢? 在编程和数据结构中,“shallow”(浅层)通常指对数据结构的最外层进行操作,而不递归地处理其内部或嵌套的数据。这种处理方式关注的是数据结构的第一层属性或元素,而忽略更深层次的嵌套内容。 1. 浅层与深层的对比 1.1 浅层(Shallow) 定义

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

【 html+css 绚丽Loading 】000046 三才归元阵

前言:哈喽,大家好,今天给大家分享html+css 绚丽Loading!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏+关注哦 💕 目录 📚一、效果📚二、信息💡1.简介:💡2.外观描述:💡3.使用方式:💡4.战斗方式:💡5.提升:💡6.传说: 📚三、源代码,上代码,可以直接复制使用🎥效果🗂️目录✍️

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k