对utf-8字符串计算长度

2024-05-15 02:18
文章标签 字符串 utf 计算长度

本文主要是介绍对utf-8字符串计算长度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

对utf-8字符串计算长度

1.简介

在linux操作系统下,默认使用utf-8字符集,当程序中的在流中使用字符(ASCII)时用strlen()函数完全能够处理问题,但是在流中使用中文汉字时,strlen()就力不从心了。若更改字符集为GB2312,一个汉字等于两个字符,但是此更改不仅要修改文件保存的保存字符集,还要修改系统的字符集及终端的字符集。所以我通过对utf-8字符集的学习,自己编写了一个求utf-8字符编码的长度计算函数。


2.UTF-8 字符集编码格式

           编码                                                             长度(Byte)
      1               2               3            4        
0xxxxxxx                                                                        1

110xxxxx 10xxxxxx                                                       2

1110xxxx 10xxxxxx  10xxxxxx                                      3

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                       4

从编码中第一列可看出:  1.最高位为0时,编码长度为1, 可存放一个ASCII字符。
                                           2.最高位为1,次高位为1,第6位为0时,编码长度为2。
                                           3.最高位为1,次高位为1,第6位为1,第5位为0时,编码长度为3,绝大多数汉字的utf-8编码的长度都为3。

                                           ....以此类推.....


3.函数原型
    void       GetUtf8Length (     char   const   *str ,             int     cnt[]       );
    返回值为空: 这里不去判断输入字符串指针是否安全,故无返回。(可以根据需求修改)
    char const *str: 输入字符串指针,并且告诉编译器,程序不能修改指针所指向地址里的值。
    int cnt[]: 这个数组用于存储各种长度字符的个数。
               cnt[0] 字符串中,各种长度字符的总和。
               cnt[1] 长度为1的字符总和, 也就是源字符串中ASCII字符的个数。
               cnt[2] 长度为2的字符总和。
               cnt[3] 长度为3的字符总和。
               cnt[4] 长度为4的字符总和。
               注: int cnt[5]; 这个声明需在调用GetUtf8Length函数的代码块作用域中定义。
                    数组初始化,全为0 如用: # include <string.h>                        memset( cnt, 0, sizeof(int) * 5);


4.函数定义

<span style="font-size:14px;">void
GetUtf8Length( char const *str, int *cnt){while( *str != '\0' ){if( *str & 1<<7 ){/* 第8位(从右到左)为1*/if( *str & (1<<6) ){/*第7位为1*/if( *str & (1<<5) ){/*第6位为1*/if( *str & (1<<4)){/*第5位为1  11110xxx*/cnt[4]++,cnt[0]++,str += 4;/*4字节的字符总数加1,各种长度总数加1,指针向后移动4位*/continue;/*开始下次循环*/}cnt[3]++,cnt[0]++,str += 3;/* 1110xxxx*/continue;}cnt[2]++,cnt[0]++,str += 2;/*110xxxxx*/continue;}}cnt[1]++,cnt[0]++,str += 1;/*0xxxxxxx*/continue;}
}	
</span>
5.测试程序

<span style="font-size:14px;">/******************************************START******************************************************/
# include <stdio.h>
# include <stdlib.h>
# include <string.h>/*不用memset函数,可以不要*/void GetUtf8Length( char const *str, int *cnt );/******************************************MAIN******************************************************/
int
main( void ){char str[] = "这是一条UTF-8的文本,请数数aaaabbbbcccc*(是的.";int cnt[5];memset( cnt, 0, sizeof(int) * 4 );GetUtf8Length( str, cnt);printf( " 这条文本的字符共%d个 ; 其中汉字有%d个, 英文字符%d个\n", cnt[0], cnt[3], cnt[1] );return EXIT_SUCCESS;
}
/******************************************END*******************************************************//******************************************FUNC******************************************************/
void
GetUtf8Length( char const *str, int *cnt){while( *str != '\0' ){if( *str & 1<<7 ){if( *str & (1<<6) ){if( *str & (1<<5) ){if( *str & (1<<4)){cnt[4]++,cnt[0]++,str += 4;continue;}cnt[3]++,cnt[0]++,str += 3;continue;}cnt[2]++,cnt[0]++,str += 2;continue;}}cnt[1]++,cnt[0]++,str += 1;continue;}
}
/*********************************************END****************************************************/</span>

6.运行图片




                                                                          Writer:  Anden       Email:  andensemail@163.com      Time:  2016.03.30

这篇关于对utf-8字符串计算长度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/990527

相关文章

Python字符串处理方法超全攻略

《Python字符串处理方法超全攻略》字符串可以看作多个字符的按照先后顺序组合,相当于就是序列结构,意味着可以对它进行遍历、切片,:本文主要介绍Python字符串处理方法的相关资料,文中通过代码介... 目录一、基础知识:字符串的“不可变”特性与创建方式二、常用操作:80%场景的“万能工具箱”三、格式化方法

浅析python如何去掉字符串中最后一个字符

《浅析python如何去掉字符串中最后一个字符》在Python中,字符串是不可变对象,因此无法直接修改原字符串,但可以通过生成新字符串的方式去掉最后一个字符,本文整理了三种高效方法,希望对大家有所帮助... 目录方法1:切片操作(最推荐)方法2:长度计算索引方法3:拼接剩余字符(不推荐,仅作演示)关键注意事

Java实现字符串大小写转换的常用方法

《Java实现字符串大小写转换的常用方法》在Java中,字符串大小写转换是文本处理的核心操作之一,Java提供了多种灵活的方式来实现大小写转换,适用于不同场景和需求,本文将全面解析大小写转换的各种方法... 目录前言核心转换方法1.String类的基础方法2. 考虑区域设置的转换3. 字符级别的转换高级转换

MySQL字符串转数值的方法全解析

《MySQL字符串转数值的方法全解析》在MySQL开发中,字符串与数值的转换是高频操作,本文从隐式转换原理、显式转换方法、典型场景案例、风险防控四个维度系统梳理,助您精准掌握这一核心技能,需要的朋友可... 目录一、隐式转换:自动但需警惕的&ld编程quo;双刃剑”二、显式转换:三大核心方法详解三、典型场景

Java中的随机数生成案例从范围字符串到动态区间应用

《Java中的随机数生成案例从范围字符串到动态区间应用》本文介绍了在Java中生成随机数的多种方法,并通过两个案例解析如何根据业务需求生成特定范围的随机数,本文通过两个实际案例详细介绍如何在java中... 目录Java中的随机数生成:从范围字符串到动态区间应用引言目录1. Java中的随机数生成基础基本随

Python实现字典转字符串的五种方法

《Python实现字典转字符串的五种方法》本文介绍了在Python中如何将字典数据结构转换为字符串格式的多种方法,首先可以通过内置的str()函数进行简单转换;其次利用ison.dumps()函数能够... 目录1、使用json模块的dumps方法:2、使用str方法:3、使用循环和字符串拼接:4、使用字符

Python 常用数据类型详解之字符串、列表、字典操作方法

《Python常用数据类型详解之字符串、列表、字典操作方法》在Python中,字符串、列表和字典是最常用的数据类型,它们在数据处理、程序设计和算法实现中扮演着重要角色,接下来通过本文给大家介绍这三种... 目录一、字符串(String)(一)创建字符串(二)字符串操作1. 字符串连接2. 字符串重复3. 字

Java 字符串操作之contains 和 substring 方法最佳实践与常见问题

《Java字符串操作之contains和substring方法最佳实践与常见问题》本文给大家详细介绍Java字符串操作之contains和substring方法最佳实践与常见问题,本文结合实例... 目录一、contains 方法详解1. 方法定义与语法2. 底层实现原理3. 使用示例4. 注意事项二、su

Java实现将HTML文件与字符串转换为图片

《Java实现将HTML文件与字符串转换为图片》在Java开发中,我们经常会遇到将HTML内容转换为图片的需求,本文小编就来和大家详细讲讲如何使用FreeSpire.DocforJava库来实现这一功... 目录前言核心实现:html 转图片完整代码场景 1:转换本地 HTML 文件为图片场景 2:转换 H

Java使用正则提取字符串中的内容的详细步骤

《Java使用正则提取字符串中的内容的详细步骤》:本文主要介绍Java中使用正则表达式提取字符串内容的方法,通过Pattern和Matcher类实现,涵盖编译正则、查找匹配、分组捕获、数字与邮箱提... 目录1. 基础流程2. 关键方法说明3. 常见场景示例场景1:提取所有数字场景2:提取邮箱地址4. 高级