对utf-8字符串计算长度

2024-05-15 02:18
文章标签 字符串 utf 计算长度

本文主要是介绍对utf-8字符串计算长度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

对utf-8字符串计算长度

1.简介

在linux操作系统下,默认使用utf-8字符集,当程序中的在流中使用字符(ASCII)时用strlen()函数完全能够处理问题,但是在流中使用中文汉字时,strlen()就力不从心了。若更改字符集为GB2312,一个汉字等于两个字符,但是此更改不仅要修改文件保存的保存字符集,还要修改系统的字符集及终端的字符集。所以我通过对utf-8字符集的学习,自己编写了一个求utf-8字符编码的长度计算函数。


2.UTF-8 字符集编码格式

           编码                                                             长度(Byte)
      1               2               3            4        
0xxxxxxx                                                                        1

110xxxxx 10xxxxxx                                                       2

1110xxxx 10xxxxxx  10xxxxxx                                      3

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                       4

从编码中第一列可看出:  1.最高位为0时,编码长度为1, 可存放一个ASCII字符。
                                           2.最高位为1,次高位为1,第6位为0时,编码长度为2。
                                           3.最高位为1,次高位为1,第6位为1,第5位为0时,编码长度为3,绝大多数汉字的utf-8编码的长度都为3。

                                           ....以此类推.....


3.函数原型
    void       GetUtf8Length (     char   const   *str ,             int     cnt[]       );
    返回值为空: 这里不去判断输入字符串指针是否安全,故无返回。(可以根据需求修改)
    char const *str: 输入字符串指针,并且告诉编译器,程序不能修改指针所指向地址里的值。
    int cnt[]: 这个数组用于存储各种长度字符的个数。
               cnt[0] 字符串中,各种长度字符的总和。
               cnt[1] 长度为1的字符总和, 也就是源字符串中ASCII字符的个数。
               cnt[2] 长度为2的字符总和。
               cnt[3] 长度为3的字符总和。
               cnt[4] 长度为4的字符总和。
               注: int cnt[5]; 这个声明需在调用GetUtf8Length函数的代码块作用域中定义。
                    数组初始化,全为0 如用: # include <string.h>                        memset( cnt, 0, sizeof(int) * 5);


4.函数定义

<span style="font-size:14px;">void
GetUtf8Length( char const *str, int *cnt){while( *str != '\0' ){if( *str & 1<<7 ){/* 第8位(从右到左)为1*/if( *str & (1<<6) ){/*第7位为1*/if( *str & (1<<5) ){/*第6位为1*/if( *str & (1<<4)){/*第5位为1  11110xxx*/cnt[4]++,cnt[0]++,str += 4;/*4字节的字符总数加1,各种长度总数加1,指针向后移动4位*/continue;/*开始下次循环*/}cnt[3]++,cnt[0]++,str += 3;/* 1110xxxx*/continue;}cnt[2]++,cnt[0]++,str += 2;/*110xxxxx*/continue;}}cnt[1]++,cnt[0]++,str += 1;/*0xxxxxxx*/continue;}
}	
</span>
5.测试程序

<span style="font-size:14px;">/******************************************START******************************************************/
# include <stdio.h>
# include <stdlib.h>
# include <string.h>/*不用memset函数,可以不要*/void GetUtf8Length( char const *str, int *cnt );/******************************************MAIN******************************************************/
int
main( void ){char str[] = "这是一条UTF-8的文本,请数数aaaabbbbcccc*(是的.";int cnt[5];memset( cnt, 0, sizeof(int) * 4 );GetUtf8Length( str, cnt);printf( " 这条文本的字符共%d个 ; 其中汉字有%d个, 英文字符%d个\n", cnt[0], cnt[3], cnt[1] );return EXIT_SUCCESS;
}
/******************************************END*******************************************************//******************************************FUNC******************************************************/
void
GetUtf8Length( char const *str, int *cnt){while( *str != '\0' ){if( *str & 1<<7 ){if( *str & (1<<6) ){if( *str & (1<<5) ){if( *str & (1<<4)){cnt[4]++,cnt[0]++,str += 4;continue;}cnt[3]++,cnt[0]++,str += 3;continue;}cnt[2]++,cnt[0]++,str += 2;continue;}}cnt[1]++,cnt[0]++,str += 1;continue;}
}
/*********************************************END****************************************************/</span>

6.运行图片




                                                                          Writer:  Anden       Email:  andensemail@163.com      Time:  2016.03.30

这篇关于对utf-8字符串计算长度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990527

相关文章

Python中反转字符串的常见方法小结

《Python中反转字符串的常见方法小结》在Python中,字符串对象没有内置的反转方法,然而,在实际开发中,我们经常会遇到需要反转字符串的场景,比如处理回文字符串、文本加密等,因此,掌握如何在Pyt... 目录python中反转字符串的方法技术背景实现步骤1. 使用切片2. 使用 reversed() 函

MySQL查询JSON数组字段包含特定字符串的方法

《MySQL查询JSON数组字段包含特定字符串的方法》在MySQL数据库中,当某个字段存储的是JSON数组,需要查询数组中包含特定字符串的记录时传统的LIKE语句无法直接使用,下面小编就为大家介绍两种... 目录问题背景解决方案对比1. 精确匹配方案(推荐)2. 模糊匹配方案参数化查询示例使用场景建议性能优

MySQL 获取字符串长度及注意事项

《MySQL获取字符串长度及注意事项》本文通过实例代码给大家介绍MySQL获取字符串长度及注意事项,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 获取字符串长度详解 核心长度函数对比⚠️ 六大关键注意事项1. 字符编码决定字节长度2

Springboot3+将ID转为JSON字符串的详细配置方案

《Springboot3+将ID转为JSON字符串的详细配置方案》:本文主要介绍纯后端实现Long/BigIntegerID转为JSON字符串的详细配置方案,s基于SpringBoot3+和Spr... 目录1. 添加依赖2. 全局 Jackson 配置3. 精准控制(可选)4. OpenAPI (Spri

使用Python实现base64字符串与图片互转的详细步骤

《使用Python实现base64字符串与图片互转的详细步骤》要将一个Base64编码的字符串转换为图片文件并保存下来,可以使用Python的base64模块来实现,这一过程包括解码Base64字符串... 目录1. 图片编码为 Base64 字符串2. Base64 字符串解码为图片文件3. 示例使用注意

golang float和科学计数法转字符串的实现方式

《golangfloat和科学计数法转字符串的实现方式》:本文主要介绍golangfloat和科学计数法转字符串的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望... 目录golang float和科学计数法转字符串需要对float转字符串做处理总结golang float

Python如何判断字符串中是否包含特殊字符并替换

《Python如何判断字符串中是否包含特殊字符并替换》这篇文章主要为大家详细介绍了如何使用Python实现判断字符串中是否包含特殊字符并使用空字符串替换掉,文中的示例代码讲解详细,感兴趣的小伙伴可以了... 目录python判断字符串中是否包含特殊字符方法一:使用正则表达式方法二:手动检查特定字符Pytho

MySQL 字符串截取函数及用法详解

《MySQL字符串截取函数及用法详解》在MySQL中,字符串截取是常见的操作,主要用于从字符串中提取特定部分,MySQL提供了多种函数来实现这一功能,包括LEFT()、RIGHT()、SUBST... 目录mysql 字符串截取函数详解RIGHT(str, length):从右侧截取指定长度的字符SUBST

Python将字符串转换为小写字母的几种常用方法

《Python将字符串转换为小写字母的几种常用方法》:本文主要介绍Python中将字符串大写字母转小写的四种方法:lower()方法简洁高效,手动ASCII转换灵活可控,str.translate... 目录一、使用内置方法 lower()(最简单)二、手动遍历 + ASCII 码转换三、使用 str.tr

Java如何用乘号来重复字符串的功能

《Java如何用乘号来重复字符串的功能》:本文主要介绍Java使用乘号来重复字符串的功能,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java乘号来重复字符串的功能1、利用循环2、使用StringBuilder3、采用 Java 11 引入的String.rep