C++码表之Unicode

2024-08-25 09:12
文章标签 c++ unicode 码表

本文主要是介绍C++码表之Unicode,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

今日诗词:

折花逢驿使,寄与陇头人。

江南无所有,聊赠一枝春。

                                          ——《赠范晔诗》【南北朝】陆凯


引言:

上一期我们说到了ASCII码表,这是一种现如今不是那么通用的机制,随着计算机的普及,越来越多的人开始学习计算机,深入研究它,所以我们需要一种可以映射所有语言的码表,这就是Unicode编码。

正文:

小知识:

在开始今天的Unicode编码前,我先来说一个知识点,有助于后面地理解,看懂机制中代表的意思。

字节序:

一个字(32位机器采用32bits字长4bytes)在内存中存放的字节序是怎样的呢?

两个方法:

大端法:(big endition):大多数IBM机器,Internet传输

0x1000x1010x1020x103
01234567

小端法:(little endition):Intel兼容机

0x1000x1010x1020x103
67452301

这就是字节序的表示方法:大端法,小端法。


Unicode编码

Unicode编码,也被称为统一码、万国码或单一码,是一种在计算机上广泛使用的字符编码方案。它旨在解决传统字符编码方案的局限,为每种语言中的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台进行文本转换和处理的需求。
一、起源与发展
Unicode编码的历史可以追溯到20世纪60年代,当时计算机科学家们意识到不同计算机系统使用不同的字符编码方式,导致文本和数据在不同系统间传输时出现混乱和错误。为解决这一问题,国际组织开始致力于制定统一的字符编码标准。1987年,Unicode联盟成立,开始制定Unicode编码标准。该标准于1990年开始研发,1994年正式公布,并随着计算机和互联网的发展逐渐成为全球通用的字符编码标准。
二、特点与优势
1.统一性:Unicode为世界上几乎所有的字符集和符号提供了唯一的数字标识符,确保了字符在不同计算机系统和编程环境中的一致性和互操作性。
2.扩展性:Unicode编码体系庞大,能够容纳超过110万个码位,涵盖了全球范围内的绝大多数语言字符,为未来的字符扩展提供了充足的空间。
3.兼容性:Unicode与多种传统字符编码方案(如ISO 8859、GB2312等)保持兼容,使得旧有编码方式可以平滑过渡到Unicode编码。
三、实现方式
虽然Unicode为每个字符分配了唯一的码位,但其具体实现方式(如UTF-8、UTF-16、UTF-32等)在编码长度上有所不同:
1.UTF-8:一种可变长度的编码方式,能够根据字符的不同使用不同数量的字节进行编码。它对于ASCII字符非常高效且兼容,是互联网上最流行的字符编码方式之一。特点是存储效率高(不方便内部随机访问);无字节序问题(可作为外部编码);与ASCII码表完全互通。一个byte表示一个字符。
2.UTF-16:固定长度的编码方式,使用16位(即2个字节)来表示一个字符。在处理基本平面的字符时非常高效,但对于扩展平面的字符需要使用代理对(surrogate pair)来表示。特点是定长(方便内部随机访问);有字节序问题(不可作为外部编码)。两个byte表示一个字符。
3.UTF-32:也是固定长度的编码方式,使用32位(即4个字节)来表示一个字符。它简化了字符的编码和解码过程,但可能会占用更多的存储空间。特点是定长(方便内部随机访问);有字节序问题(不可作为外部编码)。两个byte表示一个字符。

四、应用领域
Unicode编码在多个领域发挥着重要作用,包括:

  1. 跨语言文本处理:使得不同语言的文本可以在同一平台上进行处理和交换。
  2. 国际化软件开发:确保软件支持多种语言,满足全球化市场的需求。
  3. 网络通信:确保各种语言的字符能够正确传输和显示,提高通信的效率和准确性。
  4. 数据库存储:为数据分析和挖掘提供更广泛的数据来源。
  5. 文本编辑器:在文档或文本文件中插入Unicode字符时,可以直接使用文本编辑器进行输入或粘贴。
  6. HTML和网页:在HTML中,可以使用实体编码或直接插入Unicode字符来表示特殊字符。

综上所述,Unicode编码作为一种重要的字符编码标准,为全球范围内的信息交流和处理提供了统一的基础。随着技术的不断发展和全球化的推进,Unicode编码将在更多领域发挥重要作用。


实例演示:

 首先我们在Notepad++中写一段字符串常量(helloworld),然后在编码中转换成不同的编码(这里有五种编码:ASCII码表,UTF-8编码,UTF-8-BOM编码,UTF-16 Big Endition编码,UTF-16 Little Endition编码),转化后的文件(五个)保存在一起方便使用。

 

 然后在资源管理器中打开这五个文件。然后选中其中一个文件点击右键就会出现打开方式的方框,找到二进制编辑器然后单击,就会出现着五种形式各自的二进制表示。

 我们看上图,其中3和4就是ASCII码表和UTF-8编码,这两个的二进制表示一摸一样,因为二者都是以8位来定义的,所以是通用的。然后是1和5,分别是UTF-16 Big Endition编码和UTF-16 Little Endition编码,它们之间的不同之处就是字节序的不同,其他都是相同的;相比于UTF-8编码,这两个在每一个数字都加了00。最后是UTF-8-BOM编码,这个可以忽略,因为八位的没有字节序,而BOM又是定义字节序的符号,所以在这就是多此一举。

最后说一句:编码错误的根本原因在于编码方式和解码方式的不统一(就是解铃还须系铃人)。所以当文件出现乱码情况,80%都是这个原因。这一章我讲解的比较简单,不够严谨规范,感兴趣的同学可以深入研究一下


🆗到这里,这篇关于:C++码表之Unicode就说完了,求一个免费的赞,感谢阅读

下期预告:C++字符串的指针表示

这篇关于C++码表之Unicode的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1105139

相关文章

C++ 中的 if-constexpr语法和作用

《C++中的if-constexpr语法和作用》if-constexpr语法是C++17引入的新语法特性,也被称为常量if表达式或静态if(staticif),:本文主要介绍C++中的if-c... 目录1 if-constexpr 语法1.1 基本语法1.2 扩展说明1.2.1 条件表达式1.2.2 fa

C++中::SHCreateDirectoryEx函数使用方法

《C++中::SHCreateDirectoryEx函数使用方法》::SHCreateDirectoryEx用于创建多级目录,类似于mkdir-p命令,本文主要介绍了C++中::SHCreateDir... 目录1. 函数原型与依赖项2. 基本使用示例示例 1:创建单层目录示例 2:创建多级目录3. 关键注

C++从序列容器中删除元素的四种方法

《C++从序列容器中删除元素的四种方法》删除元素的方法在序列容器和关联容器之间是非常不同的,在序列容器中,vector和string是最常用的,但这里也会介绍deque和list以供全面了解,尽管在一... 目录一、简介二、移除给定位置的元素三、移除与某个值相等的元素3.1、序列容器vector、deque

C++常见容器获取头元素的方法大全

《C++常见容器获取头元素的方法大全》在C++编程中,容器是存储和管理数据集合的重要工具,不同的容器提供了不同的接口来访问和操作其中的元素,获取容器的头元素(即第一个元素)是常见的操作之一,本文将详细... 目录一、std::vector二、std::list三、std::deque四、std::forwa

C++字符串提取和分割的多种方法

《C++字符串提取和分割的多种方法》在C++编程中,字符串处理是一个常见的任务,尤其是在需要从字符串中提取特定数据时,本文将详细探讨如何使用C++标准库中的工具来提取和分割字符串,并分析不同方法的适用... 目录1. 字符串提取的基本方法1.1 使用 std::istringstream 和 >> 操作符示

C++原地删除有序数组重复项的N种方法

《C++原地删除有序数组重复项的N种方法》给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度,不要使用额外的数组空间,你必须在原地修改输入数组并在使用O(... 目录一、问题二、问题分析三、算法实现四、问题变体:最多保留两次五、分析和代码实现5.1、问题分析5.

C++ 各种map特点对比分析

《C++各种map特点对比分析》文章比较了C++中不同类型的map(如std::map,std::unordered_map,std::multimap,std::unordered_multima... 目录特点比较C++ 示例代码 ​​​​​​代码解释特点比较1. std::map底层实现:基于红黑

C++中函数模板与类模板的简单使用及区别介绍

《C++中函数模板与类模板的简单使用及区别介绍》这篇文章介绍了C++中的模板机制,包括函数模板和类模板的概念、语法和实际应用,函数模板通过类型参数实现泛型操作,而类模板允许创建可处理多种数据类型的类,... 目录一、函数模板定义语法真实示例二、类模板三、关键区别四、注意事项 ‌在C++中,模板是实现泛型编程

利用Python和C++解析gltf文件的示例详解

《利用Python和C++解析gltf文件的示例详解》gltf,全称是GLTransmissionFormat,是一种开放的3D文件格式,Python和C++是两个非常强大的工具,下面我们就来看看如何... 目录什么是gltf文件选择语言的原因安装必要的库解析gltf文件的步骤1. 读取gltf文件2. 提

C++快速排序超详细讲解

《C++快速排序超详细讲解》快速排序是一种高效的排序算法,通过分治法将数组划分为两部分,递归排序,直到整个数组有序,通过代码解析和示例,详细解释了快速排序的工作原理和实现过程,需要的朋友可以参考下... 目录一、快速排序原理二、快速排序标准代码三、代码解析四、使用while循环的快速排序1.代码代码1.由快