#未知编码的字符串.startsWith(#)为什么会是false UTF-8 BOM编码的坑

2024-05-08 17:58

本文主要是介绍#未知编码的字符串.startsWith(#)为什么会是false UTF-8 BOM编码的坑,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

"#未知编码的字符串".startsWith("#")为什么会是false?

我都这么命名标题了,那么问题很显然,编码不统一导致

 

发现这个问题的背景:

      我在获取别人的t配置信息(txt文件)时,如果遇到以“#”开头,则说明是注释信息。但是我在用.startsWith("#")去判断时,居然出现这样的情况:

      一开始以为是“#”需要转义,尝试转义却途劳;然后一想,会不会是编码问题呢?一看txt文件的编码UTF-8-BOM,而我工程默认UTF-8编码,原来坑在这里。

举个例子:

public static void testString() throws UnsupportedEncodingException{String str1 = new String("#函购同虹款式f".getBytes(),"UTF-8");String str2 = new String("#函购同虹款式f".getBytes(),"GBK");String str3 = new String("#函购同虹款式f".getBytes(),"ISO-8859-1");String str4 = new String("#函购同虹款式f".getBytes(),"UTF-16");String str5 = new String("#函购同虹款式f".getBytes(),"GB2312");String str6 = new String("#函购同虹款式f".getBytes(),"Unicode");System.out.println(str1+"--UTF-8: " + str1.startsWith("#"));System.out.println(str2+"--GBK: " + str2.startsWith("#"));System.out.println(str3+"--ISO-8859-1: " + str3.startsWith("#"));System.out.println(str4+"--UTF-16: " + str4.startsWith("#"));System.out.println(str5+"--GB2312: " + str5.startsWith("#"));System.out.println(str6+"--Unicode: " + str6.startsWith("#"));}

输出结果为:

结论:

      从输入流中读取的字符串,需要首先判断其编码是否和自己编译文件的编码格式相同,否则很容易出现乱码或是执行一些操作得不到你想要的效果。

        我写了一点判断字符串编码格式的代码(注意:仅适用于UTF-8的编译环境下,即Java文件使用UTF-8编码)。

        请看这篇文章>>>>

这篇关于#未知编码的字符串.startsWith(#)为什么会是false UTF-8 BOM编码的坑的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/971026

相关文章

JAVA中整型数组、字符串数组、整型数和字符串 的创建与转换的方法

《JAVA中整型数组、字符串数组、整型数和字符串的创建与转换的方法》本文介绍了Java中字符串、字符数组和整型数组的创建方法,以及它们之间的转换方法,还详细讲解了字符串中的一些常用方法,如index... 目录一、字符串、字符数组和整型数组的创建1、字符串的创建方法1.1 通过引用字符数组来创建字符串1.2

C#中字符串分割的多种方式

《C#中字符串分割的多种方式》在C#编程语言中,字符串处理是日常开发中不可或缺的一部分,字符串分割是处理文本数据时常用的操作,它允许我们将一个长字符串分解成多个子字符串,本文给大家介绍了C#中字符串分... 目录1. 使用 string.Split2. 使用正则表达式 (Regex.Split)3. 使用

Java中JSON字符串反序列化(动态泛型)

《Java中JSON字符串反序列化(动态泛型)》文章讨论了在定时任务中使用反射调用目标对象时处理动态参数的问题,通过将方法参数存储为JSON字符串并进行反序列化,可以实现动态调用,然而,这种方式容易导... 需求:定时任务扫描,反射调用目标对象,但是,方法的传参不是固定的。方案一:将方法参数存成jsON字

C++ | Leetcode C++题解之第393题UTF-8编码验证

题目: 题解: class Solution {public:static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num &

C语言 | Leetcode C语言题解之第393题UTF-8编码验证

题目: 题解: static const int MASK1 = 1 << 7;static const int MASK2 = (1 << 7) + (1 << 6);bool isValid(int num) {return (num & MASK2) == MASK1;}int getBytes(int num) {if ((num & MASK1) == 0) {return

form表单提交编码的问题

浏览器在form提交后,会生成一个HTTP的头部信息"content-type",标准规定其形式为Content-type: application/x-www-form-urlencoded; charset=UTF-8        那么我们如果需要修改编码,不使用默认的,那么可以如下这样操作修改编码,来满足需求: hmtl代码:   <meta http-equiv="Conte

每日一题|牛客竞赛|四舍五入|字符串+贪心+模拟

每日一题|四舍五入 四舍五入 心有猛虎,细嗅蔷薇。你好朋友,这里是锅巴的C\C++学习笔记,常言道,不积跬步无以至千里,希望有朝一日我们积累的滴水可以击穿顽石。 四舍五入 题目: 牛牛发明了一种新的四舍五入应用于整数,对个位四舍五入,规则如下 12345->12350 12399->12400 输入描述: 输入一个整数n(0<=n<=109 ) 输出描述: 输出一个整数

C和指针:字符串

字符串、字符和字节 字符串基础 字符串就是一串零个或多个字符,并且以一个位模式为全0的NUL字节结尾。 字符串长度就是字符串中字符数。 size_t strlen( char const *string ); string为指针常量(const修饰string),指向的string是常量不能修改。size_t是无符号数,定义在stddef.h。 #include <stddef.h>

PHP字符串全排列

方法一: $str = 'abc';$a =str_split($str);perm($a, 0, count($a)-1);function perm(&$ar, $k, $m) {if($k == $m){ echo join('',$ar), PHP_EOL;}else {for($i=$k; $i<=$m; $i++) {swap($ar[$k], $ar[$i]);perm($ar

PHP7扩展开发之字符串处理

前言 这次,我们来看看字符串在PHP扩展里面如何处理。 示例代码如下: <?phpfunction str_concat($prefix, $string) {$len = strlen($prefix);$substr = substr($string, 0, $len);if ($substr != $prefix) {return $prefix." ".$string;} else