Java 遍历字符串和截取码点

本文主要是介绍Java 遍历字符串和截取码点，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Java 遍历字符串和截取码点

String 类官方说明介绍

The class String includes methods for examining individual characters of the sequence,for comparing strings, for searching strings, for extracting substrings, and for creating a copy of a string with all characters translated to uppercase or to lowercase. Case mapping is based on the Unicode Standard version specified by the Character class.A String represents a string in the UTF-16 format in which supplementary characters 
are represented by surrogate pairs(see the section Unicode Character Representations in the Character class for more information).Index values refer to char code units, so a supplementary character uses two positions in a String.

Java String 是使用 “UTF-16”编码的字符串，每个字符（char）为16位，占据2个字节，

UTF-16

Unicode的编码空间从U+0000到U+10FFFF，共有1,112,064个码位（code point）可用来映射字符。Unicode的编码空间可以划分为17个平面（plane），每个平面包含216（65,536）个码位。17个平面的码位可表示为从U+xx0000到U+xxFFFF，其中xx表示十六进制值从0016到1016，共计17个平面。第一个平面称为基本多语言平面（Basic Multilingual Plane, BMP），或称第零平面（Plane 0），其他平面称为辅助平面（Supplementary Planes）。基本多语言平面内，从U+D800到U+DFFF之间的码位区段是永久保留不映射到Unicode字符。UTF-16就利用保留下来的0xD800-0xDFFF区段的码位来对辅助平面的字符的码位进行编码。

从U+0000至U+D7FF以及从U+E000至U+FFFF的码位

第一个Unicode平面（码位从U+0000至U+FFFF）包含了最常用的字符。该平面被称为基本多语言平面，缩写为BMP（Basic Multilingual Plane，BMP）。UTF-16与UCS-2编码这个范围内的码位为16比特长的单个码元，数值等价于对应的码位。BMP中的这些码位是仅有的可以在UCS-2中表示的码位。

从U+10000到U+10FFFF的码位

辅助平面（Supplementary Planes）中的码位，在UTF-16中被编码为一对16比特长的码元（即32位元，4字节），称作代理对（Surrogate Pair）

java实现

基本多语言平面（BMP）（U+0000- U+FFFF） java 使用一个字符 char 来表示，
辅助平面（Supplementary Planes）（U+10000-U+10FFFF），java称之为 supplementary characters（增补字符），其用一对字符（2个字符）来表示，第一个字符表示高位，第二个字符表示低位

总结

所以在java中每个字符 char 可能代表一个码位，也可能代表增补字符中一个 编码单元 其单独拿出来是毫无意义的，

由此在java中遍历字符串的正确做法是根据码位遍历，而不是根据字符遍历

方式一val str = "你好上海市😄😭😭🐮122"val toArray = str.codePoints().toArray()toArray.forEach {print("${String(Character.toChars(it))},")//do something...}方式二val str = "你好上海市😄😭😭🐮122"var offset = 0while (offset < str.length) {val codePointAt = str.codePointAt(offset)offset += Character.charCount(codePointAt)print("${String(Character.toChars(codePointAt))},")//do something...}方式三

截取字符串时也应该是根据码位截取，而非根据字符截取


/*** @param str 要截取的字符串* @param count 要截取的码点*/
fun codePointSubstr(str:String,count:Int):String{val codePointsCount =str.codePointCount(0,str.length)if (codePointsCount<=count) return strreturn str.substring(0,str.offsetByCodePoints(0,count))
}

参考链接：
UTF-8 维基百科

这篇关于Java 遍历字符串和截取码点的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Java 遍历字符串和截取码点

Java 遍历字符串和截取码点

String 类官方说明介绍

UTF-16

从U+0000至U+D7FF以及从U+E000至U+FFFF的码位

从U+10000到U+10FFFF的码位

java实现

总结

相关文章

SpringBoot整合AOP及使用案例实战

Java实现字符串大小写转换的常用方法

SpringBoot简单整合ElasticSearch实践

Java方法重载与重写之同名方法的双面魔法(最新整理)

MySQL字符串转数值的方法全解析

Spring配置扩展之JavaConfig的使用小结

Java数组动态扩容的实现示例

Java中ArrayList与顺序表示例详解

JAVA项目swing转javafx语法规则以及示例代码

Spring Boot Interceptor的原理、配置、顺序控制及与Filter的关键区别对比分析

Java 遍历字符串 和 截取码点

Java 遍历字符串 和 截取码点

String 类官方说明介绍

UTF-16

从U+0000至U+D7FF以及从U+E000至U+FFFF的码位

从U+10000到U+10FFFF的码位

java实现

总结

相关文章

Java 遍历字符串和截取码点

Java 遍历字符串和截取码点