Maven2上演狸猫换太子――字符编码造成的诡异故障

2024-01-15 10:08

本文主要是介绍Maven2上演狸猫换太子――字符编码造成的诡异故障,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

字符编码界的混乱我们在此不想多提,我们只能祈祷所依赖的平台和环境能够尽可能完善的处理它们

但是,吃芝麻还有掉烧饼的时候,字符编码似乎像赶不走的幽灵,时不时的来恼你一下 这不, Maven2 也被它劫持,跟我来了个狸猫换太子

莫名其妙的没有问题

之前使用 Maven2 作为项目的构建工具,运行的一直很好,虽然每次启动的时候都有

[WARNING] Using platform encoding (GBK actually) to copy filtered resources, i.e. build is platform dependent!

的警告,但开发机和服务器分别属于 windowslinux 系统,均没有出问题,所以也没有太过在意它。

莫名其妙的出了问题

但是就在昨天,我用 eclipse 打开了几个 xml 并关闭(并未做修改)之后,项目开始出现问题, war 无法被正常部署到 tomcat 上,而使用 mvn tomcat:run-war 直接运行时,提示如下异常:

写道
com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 3 of 3-byte UTF-8 sequence.

at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.invalidByte(UTF8Reader.java:674)

at com.sun.org.apache.xerces.internal.impl.io.UTF8Reader.read(UTF8Reader.java:425)

 

根据提示,找到出此问题的 xml 文件,其中存在中文,但并没有发现什么异常,从 svnrevert ,也无法解决问题。而在服务器( linux 环境)上,没有任何异常出现。

莫名其妙的找不到原因

由于之前被字符编码折磨过多次,而在此之前这些文件中包含中文并没有问题,因此首先意识到是不是 BOM header 的问题,于是找来 UltraEdit ,打开分析出问题的 xml 文件,发现确实前三个字节被 UTF-8BOM header 占据了,于是将其去掉,运行 故障依旧。

此路不通,另辟他径,试着将文件中的中文全部删除,异常没有了

虽然变相的解决了这个问题,但是,没有 BOM header 和不支持中文始终让人感到不爽,而且既然是 UTF-8 的编码,就没有理由让我用回英文。真相还是没有出来。

莫名其妙的被调包了

正向分析找不到原因,看来只能逆向跟踪每个步骤来找线索了(极度怀疑自己是不是破案片看多了)。找到被打包的 war 文件,解压,查看,果然发现 xml 文件被损坏(中文全部变成了乱码)!

看来是中间过程中文件被损坏了。仔细检查了一下整个自动化过程,发现构建、打包的时候有被修改的可能,于是又打开 target 目录下的 class 目录(即打包之前的文件目录),发现这里的 xml 也被破坏了,那么可以初步断定,资源文件在被复制出来的时候,被调了包。

真相大白

经过逐步检查,发现原来是 Maven2 在复制资源文件时,使用系统编码(也就是上面那个警告所提到的)对资源进行解码,从而造成了 UTF-8 文件被当做 GBKwindows 下默认编码是 GBK )来解码,损坏了 xml 文件。而出现这一情况都是昨天在 pom.xml 中加入 resource 标签之后,那么到此问题真相大白了。

既然找到原因所在,那么解决它也很容易,在 maven-resources-plugin 插件中配置 encodingUTF-8 即可,如下:

<plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-resources-plugin</artifactId><version>2.5</version><configuration><coding>UTF-8</encoding></configuration>
</plugin>

这篇关于Maven2上演狸猫换太子――字符编码造成的诡异故障的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/608528

相关文章

C++ | Leetcode C++题解之第393题UTF-8编码验证

题目: 题解: class Solution {public:static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num &

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

form表单提交编码的问题

浏览器在form提交后,会生成一个HTTP的头部信息"content-type",标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8        那么我们如果需要修改编码,不使用默认的,那么可以如下这样操作修改编码,来满足需求: hmtl代码:   <meta http-equiv="Conte

string字符会调用new分配堆内存吗

gcc的string默认大小是32个字节,字符串小于等于15直接保存在栈上,超过之后才会使用new分配。

如何将一个文件里不包含某个字符的行输出到另一个文件?

第一种: grep -v 'string' filename > newfilenamegrep -v 'string' filename >> newfilename 第二种: sed -n '/string/!'p filename > newfilenamesed -n '/string/!'p filename >> newfilename

4-4.Andorid Camera 之简化编码模板(获取摄像头 ID、选择最优预览尺寸)

一、Camera 简化思路 在 Camera 的开发中,其实我们通常只关注打开相机、图像预览和关闭相机,其他的步骤我们不应该花费太多的精力 为此,应该提供一个工具类,它有处理相机的一些基本工具方法,包括获取摄像头 ID、选择最优预览尺寸以及打印相机参数信息 二、Camera 工具类 CameraIdResult.java public class CameraIdResult {

【Python 千题 —— 算法篇】字符统计

Python 千题持续更新中 …… 脑图地址 👉:⭐https://twilight-fanyi.gitee.io/mind-map/Python千题.html⭐ 题目背景 在编程中,对字符串的字符统计是一个常见任务。这在文本处理、数据分析、词频统计、自然语言处理等领域有广泛应用。无论是统计字母出现的频率,还是分析不同字符类型的数量,字符串字符统计都是非常有用的技术。 字符统

C语言进阶【1】--字符函数和字符串函数【1】

本章概述 字符分类函数字符转换函数strlen的使用和模拟实现strcpy的使用和模拟实现strcat的使用和模拟实现strcmp的使用和模拟实现彩蛋时刻!!! 字符分类函数 字符: 这个概念,我们在以前的文章中讲过了。我们键盘输入的信息都是字符。字符大体可以分为两类——单个字符,字符串。而单个字符又可以进行分类——字母字符,数字字符,特殊字符和不可见字符。进行思维图展示: 在日

笔记本电脑开机报错故障的原因及解决办法

笔记本电脑开机报错故障是指笔记本电脑开机自检时或启动操作系统前停止启动,在显示屏 出现一些错误提示的故障。   笔记本电脑开机报错故障的原因及解决办法   造成此类故障的原因一般是笔记本电脑在启动自检时,检测到硬件设备不能正常工作或在自 检通过后从硬盘启动时,出现硬盘的分区表损坏、硬盘主引导记录损坏、硬盘分区结束标志丢失 等故障,笔记本电脑出现相应的故障提示。   维修此类故障时

Windows系统不关机故障的解决方法

当Windows系统出现不关机故障时,首先要查找引起Windows系统不关机的原因,然后根据 具体的故障原因采取相应的解决方法。   Windows系统不关机故障的解决方法如下。   1.检查所有正在运行的程序   检查运行的程序主要包括关闭任何在实模式下加载的TSR程序、关闭开机时从启动组自动启 动的程序、关闭任何非系统引导必需的第三方设备驱动程序。   检查运行的程序并停