判断从输入流中获取的字符串是什么编码(UTF-8环境)

2024-05-08 17:58

本文主要是介绍判断从输入流中获取的字符串是什么编码(UTF-8环境),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

      当你从一个未知编码的文件中,通过输入流读取内容时,假如是乱码怎么办?

      如果你不知道字符串的编码,可能你只能靠尝试常用的编码的方式,将字符串处理成正确编码格式。

举个例子:“#鍑借喘鍚岃櫣娆惧紡f” 这是从某文件中读取的一行信息,怎么处理,一个一个去尝试么?不妨这样思考,用程序来帮忙判断其编码格式,同时将之转换成UTF-8编码怎么样。

特别说明:

      (1)以下代码仅适用于UTF-8的编译环境下,即Java文件使用UTF-8编码

      (2)代码中仅列举了常见的几种编码格式,感兴趣的话请自行增加其他编码

      (3)将一些编码格式转换成UTF-8不能成功,暂不知怎么解决,希望懂的大神不吝赐教,在此非常感谢

1、首先写一个枚举类

/*** Unicode编码枚举类* 特别注意: 仅适合编码格式为UTF-8的编译系统中* @author WolfShadow* @date 2018年11月28日*/
public enum UnicodeEnum {UTF_8("UTF-8",(byte)35 , (byte)-27 , (byte)-121),UTF_16("UTF-16",(byte)-30 , (byte)-113 , (byte)-91),GBK("GBK",(byte)35 , (byte)-23 , (byte)-115),GB2312("GB2312",(byte)35 , (byte)-17 , (byte)-65),ISO_8859_1("ISO-8859-1",(byte)35 , (byte)-61 , (byte)-91),NULL("未知编码",(byte)-1 , (byte)-1 , (byte)-1);private String encoding;//编码private byte byte1;//第1个字节private byte byte2;//第2个字节private byte byte3;//第3个字节private UnicodeEnum(String encoding, byte byte1,byte byte2, byte byte3) {this.encoding = encoding;this.byte1 = byte1;this.byte2 = byte2;this.byte3 = byte3;}public static UnicodeEnum getUnicodeEnum(byte byte1,byte byte2, byte byte3){UnicodeEnum[] values = UnicodeEnum.values();for(UnicodeEnum enum1 : values){if (enum1.getByte1()==byte1 && enum1.getByte2()==byte2 && enum1.getByte3()==byte3) {return enum1;}}return NULL;}public String getEncoding() {return encoding;}public void setEncoding(String encoding) {this.encoding = encoding;}public byte getByte1() {return byte1;}public void setByte1(byte byte1) {this.byte1 = byte1;}public byte getByte2() {return byte2;}public void setByte2(byte byte2) {this.byte2 = byte2;}public byte getByte3() {return byte3;}public void setByte3(byte byte3) {this.byte3 = byte3;}
}

2、然后增加一个工具类

/*** 字符串编码工具类* (1)检测字符串编码* (2)各种编码之间的转换(请自行完善)* (3)UTF-8、UTF-16、GBK、GB2312、ISO-8859-1等* @author WolfShadow* @date 2018年11月28日*/
public class UnicodeUtil {/*** 返回字符串的编码格式* @param str* @return* @auther WolfShadow* @date 2018年11月28日*/public static String getUnicode(String str){if (StringUtil.isEmpty(str)) {return null;}byte[] bytes = str.getBytes();UnicodeEnum unicodeEnum = UnicodeEnum.getUnicodeEnum(bytes[0], bytes[1], bytes[2]);if (unicodeEnum == null) {return null;}return unicodeEnum.getEncoding();}/*** 将字符串转换成UTF-8格式* @param str* @return* @throws UnsupportedEncodingException * @auther WolfShadow* @date 2018年11月28日*/public static String getUTF_8(String str) throws UnsupportedEncodingException{String unicode = getUnicode(str);if (unicode == null || unicode.equals(UnicodeEnum.NULL.getEncoding())) {return null;}return new String(str.getBytes(unicode),UnicodeEnum.UTF_8.getEncoding());}
}

3、写一个测试方法(或新建一个测试类)

main方法为:

public static void main(String[] args) throws UnsupportedEncodingException {String test = "#函购同虹款式f"; String str1 = new String(test.getBytes(),"UTF-8");String str2 = new String(test.getBytes(),"GBK");String str3 = new String(test.getBytes(),"ISO-8859-1");String str4 = new String(test.getBytes(),"UTF-16");String str5 = new String(test.getBytes(),"GB2312");String str6 = new String(test.getBytes(),"Unicode");System.out.println(getUnicode(str1));System.out.println(getUnicode(str2));System.out.println(getUnicode(str3));System.out.println(getUnicode(str4));System.out.println(getUnicode(str5));System.out.println(getUnicode(str6));System.out.println(getUTF_8(str6));System.out.println(getUTF_8(str5));System.out.println(getUTF_8(str4));System.out.println(getUTF_8(str3));System.out.println(getUTF_8(str2));System.out.println(getUTF_8(str1));}

4、输出结果

很明显,转换成UTF-8的方法有Bug;使用UTF-16和使用Unicode对字符串编码,结果为什么是一样的呢;有没有哪位好心的大神指点一下,谢谢咯!

 

 

 

 

这篇关于判断从输入流中获取的字符串是什么编码(UTF-8环境)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/971027

相关文章

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

poj 3259 uva 558 Wormholes(bellman最短路负权回路判断)

poj 3259: 题意:John的农场里n块地,m条路连接两块地,w个虫洞,虫洞是一条单向路,不但会把你传送到目的地,而且时间会倒退Ts。 任务是求你会不会在从某块地出发后又回来,看到了离开之前的自己。 判断树中是否存在负权回路就ok了。 bellman代码: #include<stdio.h>const int MaxN = 501;//农场数const int

【测试】输入正确用户名和密码,点击登录没有响应的可能性原因

目录 一、前端问题 1. 界面交互问题 2. 输入数据校验问题 二、网络问题 1. 网络连接中断 2. 代理设置问题 三、后端问题 1. 服务器故障 2. 数据库问题 3. 权限问题: 四、其他问题 1. 缓存问题 2. 第三方服务问题 3. 配置问题 一、前端问题 1. 界面交互问题 登录按钮的点击事件未正确绑定,导致点击后无法触发登录操作。 页面可能存在

安装nodejs环境

本文介绍了如何通过nvm(NodeVersionManager)安装和管理Node.js及npm的不同版本,包括下载安装脚本、检查版本并安装特定版本的方法。 1、安装nvm curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.0/install.sh | bash 2、查看nvm版本 nvm --version 3、安装

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

高并发环境中保持幂等性

在高并发环境中保持幂等性是一项重要的挑战。幂等性指的是无论操作执行多少次,其效果都是相同的。确保操作的幂等性可以避免重复执行带来的副作用。以下是一些保持幂等性的常用方法: 唯一标识符: 请求唯一标识:在每次请求中引入唯一标识符(如 UUID 或者生成的唯一 ID),在处理请求时,系统可以检查这个标识符是否已经处理过,如果是,则忽略重复请求。幂等键(Idempotency Key):客户端在每次

zoj 1721 判断2条线段(完全)相交

给出起点,终点,与一些障碍线段。 求起点到终点的最短路。 枚举2点的距离,然后最短路。 2点可达条件:没有线段与这2点所构成的线段(完全)相交。 const double eps = 1e-8 ;double add(double x , double y){if(fabs(x+y) < eps*(fabs(x) + fabs(y))) return 0 ;return x + y ;

POJ1269 判断2条直线的位置关系

题目大意:给两个点能够确定一条直线,题目给出两条直线(由4个点确定),要求判断出这两条直线的关系:平行,同线,相交。如果相交还要求出交点坐标。 解题思路: 先判断两条直线p1p2, q1q2是否共线, 如果不是,再判断 直线 是否平行, 如果还不是, 则两直线相交。  判断共线:  p1p2q1 共线 且 p1p2q2 共线 ,共线用叉乘为 0  来判断,  判断 平行:  p1p

pico2 开发环境搭建-基于ubuntu

pico2 开发环境搭建-基于ubuntu 安装编译工具链下载sdk 和example编译example 安装编译工具链 sudo apt install cmake gcc-arm-none-eabi libnewlib-arm-none-eabi libstdc++-arm-none-eabi-newlib 注意cmake的版本,需要在3.17 以上 下载sdk 和ex

Codeforces Round #113 (Div. 2) B 判断多边形是否在凸包内

题目点击打开链接 凸多边形A, 多边形B, 判断B是否严格在A内。  注意AB有重点 。  将A,B上的点合在一起求凸包,如果凸包上的点是B的某个点,则B肯定不在A内。 或者说B上的某点在凸包的边上则也说明B不严格在A里面。 这个处理有个巧妙的方法,只需在求凸包的时候, <=  改成< 也就是说凸包一条边上的所有点都重复点都记录在凸包里面了。 另外不能去重点。 int