对utf-8字符串计算长度

2024-05-15 02:18
文章标签 字符串 utf 计算长度

本文主要是介绍对utf-8字符串计算长度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

对utf-8字符串计算长度

1.简介

在linux操作系统下,默认使用utf-8字符集,当程序中的在流中使用字符(ASCII)时用strlen()函数完全能够处理问题,但是在流中使用中文汉字时,strlen()就力不从心了。若更改字符集为GB2312,一个汉字等于两个字符,但是此更改不仅要修改文件保存的保存字符集,还要修改系统的字符集及终端的字符集。所以我通过对utf-8字符集的学习,自己编写了一个求utf-8字符编码的长度计算函数。


2.UTF-8 字符集编码格式

           编码                                                             长度(Byte)
      1               2               3            4        
0xxxxxxx                                                                        1

110xxxxx 10xxxxxx                                                       2

1110xxxx 10xxxxxx  10xxxxxx                                      3

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                       4

从编码中第一列可看出:  1.最高位为0时,编码长度为1, 可存放一个ASCII字符。
                                           2.最高位为1,次高位为1,第6位为0时,编码长度为2。
                                           3.最高位为1,次高位为1,第6位为1,第5位为0时,编码长度为3,绝大多数汉字的utf-8编码的长度都为3。

                                           ....以此类推.....


3.函数原型
    void       GetUtf8Length (     char   const   *str ,             int     cnt[]       );
    返回值为空: 这里不去判断输入字符串指针是否安全,故无返回。(可以根据需求修改)
    char const *str: 输入字符串指针,并且告诉编译器,程序不能修改指针所指向地址里的值。
    int cnt[]: 这个数组用于存储各种长度字符的个数。
               cnt[0] 字符串中,各种长度字符的总和。
               cnt[1] 长度为1的字符总和, 也就是源字符串中ASCII字符的个数。
               cnt[2] 长度为2的字符总和。
               cnt[3] 长度为3的字符总和。
               cnt[4] 长度为4的字符总和。
               注: int cnt[5]; 这个声明需在调用GetUtf8Length函数的代码块作用域中定义。
                    数组初始化,全为0 如用: # include <string.h>                        memset( cnt, 0, sizeof(int) * 5);


4.函数定义

<span style="font-size:14px;">void
GetUtf8Length( char const *str, int *cnt){while( *str != '\0' ){if( *str & 1<<7 ){/* 第8位(从右到左)为1*/if( *str & (1<<6) ){/*第7位为1*/if( *str & (1<<5) ){/*第6位为1*/if( *str & (1<<4)){/*第5位为1  11110xxx*/cnt[4]++,cnt[0]++,str += 4;/*4字节的字符总数加1,各种长度总数加1,指针向后移动4位*/continue;/*开始下次循环*/}cnt[3]++,cnt[0]++,str += 3;/* 1110xxxx*/continue;}cnt[2]++,cnt[0]++,str += 2;/*110xxxxx*/continue;}}cnt[1]++,cnt[0]++,str += 1;/*0xxxxxxx*/continue;}
}	
</span>
5.测试程序

<span style="font-size:14px;">/******************************************START******************************************************/
# include <stdio.h>
# include <stdlib.h>
# include <string.h>/*不用memset函数,可以不要*/void GetUtf8Length( char const *str, int *cnt );/******************************************MAIN******************************************************/
int
main( void ){char str[] = "这是一条UTF-8的文本,请数数aaaabbbbcccc*(是的.";int cnt[5];memset( cnt, 0, sizeof(int) * 4 );GetUtf8Length( str, cnt);printf( " 这条文本的字符共%d个 ; 其中汉字有%d个, 英文字符%d个\n", cnt[0], cnt[3], cnt[1] );return EXIT_SUCCESS;
}
/******************************************END*******************************************************//******************************************FUNC******************************************************/
void
GetUtf8Length( char const *str, int *cnt){while( *str != '\0' ){if( *str & 1<<7 ){if( *str & (1<<6) ){if( *str & (1<<5) ){if( *str & (1<<4)){cnt[4]++,cnt[0]++,str += 4;continue;}cnt[3]++,cnt[0]++,str += 3;continue;}cnt[2]++,cnt[0]++,str += 2;continue;}}cnt[1]++,cnt[0]++,str += 1;continue;}
}
/*********************************************END****************************************************/</span>

6.运行图片




                                                                          Writer:  Anden       Email:  andensemail@163.com      Time:  2016.03.30

这篇关于对utf-8字符串计算长度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990527

相关文章

C#数据结构之字符串(string)详解

《C#数据结构之字符串(string)详解》:本文主要介绍C#数据结构之字符串(string),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录转义字符序列字符串的创建字符串的声明null字符串与空字符串重复单字符字符串的构造字符串的属性和常用方法属性常用方法总结摘

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义

python中字符串拼接的几种方法及优缺点对比详解

《python中字符串拼接的几种方法及优缺点对比详解》在Python中,字符串拼接是常见的操作,Python提供了多种方法来拼接字符串,每种方法有其优缺点和适用场景,以下是几种常见的字符串拼接方法,需... 目录1. 使用 + 运算符示例:优缺点:2. 使用&nbsjsp;join() 方法示例:优缺点:3

java字符串数字补齐位数详解

《java字符串数字补齐位数详解》:本文主要介绍java字符串数字补齐位数,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java字符串数字补齐位数一、使用String.format()方法二、Apache Commons Lang库方法三、Java 11+的St

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示

C语言字符函数和字符串函数示例详解

《C语言字符函数和字符串函数示例详解》本文详细介绍了C语言中字符分类函数、字符转换函数及字符串操作函数的使用方法,并通过示例代码展示了如何实现这些功能,通过这些内容,读者可以深入理解并掌握C语言中的字... 目录一、字符分类函数二、字符转换函数三、strlen的使用和模拟实现3.1strlen函数3.2st

Java反转字符串的五种方法总结

《Java反转字符串的五种方法总结》:本文主要介绍五种在Java中反转字符串的方法,包括使用StringBuilder的reverse()方法、字符数组、自定义StringBuilder方法、直接... 目录前言方法一:使用StringBuilder的reverse()方法方法二:使用字符数组方法三:使用自

Golang中拼接字符串的6种方式性能对比

《Golang中拼接字符串的6种方式性能对比》golang的string类型是不可修改的,对于拼接字符串来说,本质上还是创建一个新的对象将数据放进去,主要有6种拼接方式,下面小编就来为大家详细讲讲吧... 目录拼接方式介绍性能对比测试代码测试结果源码分析golang的string类型是不可修改的,对于拼接字

Java对象和JSON字符串之间的转换方法(全网最清晰)

《Java对象和JSON字符串之间的转换方法(全网最清晰)》:本文主要介绍如何在Java中使用Jackson库将对象转换为JSON字符串,并提供了一个简单的工具类示例,该工具类支持基本的转换功能,... 目录前言1. 引入 Jackson 依赖2. 创建 jsON 工具类3. 使用示例转换 Java 对象为

golang字符串匹配算法解读

《golang字符串匹配算法解读》文章介绍了字符串匹配算法的原理,特别是Knuth-Morris-Pratt(KMP)算法,该算法通过构建模式串的前缀表来减少匹配时的不必要的字符比较,从而提高效率,在... 目录简介KMP实现代码总结简介字符串匹配算法主要用于在一个较长的文本串中查找一个较短的字符串(称为