✅生产问题之Emoji表情如何操作存储,MySQL是否支持

2024-06-17 12:04

本文主要是介绍✅生产问题之Emoji表情如何操作存储,MySQL是否支持,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

针对 Emoji 表情 MySQL 存储是否支持的问题,结论是:

MySQL 中可以存储 emoji 表情,但需要使用 UTF8MB4 字符编码。如果使用 UTF8MB3,存储这些扩展字符会导致解析错误。

课外补充

MySQL 对 Unicode 的支持

Unicode 字符集已成为计算机科学领域的业界标准,它整理、编码了世界上大部分的文字系统,使得计算机能够更简便地呈现和处理文字。

为了满足不同的数据存储和传递需求,人们开发了多种 Unicode Transformation Format(UTF)编码。主要的 UTF 编码包括 UTF-8、UTF-16 和 UTF-32 等。

根据 MySQL 官方文档

  • https://dev.mysql.com/doc/refman/8.0/en/charset-unicode.html

MySQL 主要支持以下字符集:utf8、ucs2、utf8mb3、utf8mb4、utf16、utf16le 和 utf32。这些字符集在支持的字符范围和存储空间需求上有所不同。

字符集支持的字符每个字符所需存储空间
utf8mb3, utf8BMP1-3 字节
ucs2BMP2 字节
utf8mb4BMP 和补充字符1-4 字节
utf16BMP 和补充字符2 或 4 字节
utf16leBMP 和补充字符2 或 4 字节
utf32BMP 和补充字符4 字节

在 MySQL 官方文档中,介绍了支持的编码方式之后,还有一段醒目的提醒:
image.png

以上文字大致意思是:“UTF8MB3 字符集已被弃用,它在未来的 MySQL 版本中将会被删除,请使用 UTF8MB4 代替。在目前的 8.0 版本中,utf8 指的就是 UTF8MB3,虽然未来可能改成 UTF8MB4,但是为了避免产生歧义,可以考虑为字符集引用显式指定 UTF8MB4,而不是 utf8。”

这段话的意思是,MySQL 8.0 版本中使用 UTF-8 字符编码实际上是使用了 utf8mb3 编码方式,但 UTF8MB3 已经被弃用,并且在未来的 MySQL 版本中会被移除。因此,建议在设定字符集时明确指定 UTF8MB4,以避免将来可能引起的歧义和问题。

现在我们来详细讨论 UTF8MB3 的情况。

UTF8MB3

utf8mb3 字符集是 MySQL 早期支持的一种字符集,具有以下特征:

  1. 仅支持 Basic Multilingual Plane(BMP)中的字符,不支持补充字符。
  2. 每个多字节字符最多需要三个字节来表示。

BMP 指的是基本多文种平面,其中的字符码位范围在 0 到 65535(或者用 Unicode 表示为 U+0000 到 U+FFFF)。这意味着 utf8mb3 无法存储码位在 U+10000 到 U+10FFFF 之间的补充字符,包括一些生僻的汉字和 Emoji 表情等。

因此,如果在创建 MySQL 表时使用 utf8mb3(即 utf-8)作为字符编码方式,就无法正确存储和处理补充字符。

UTF8MB4

早期的 Unicode 版本只使用了 0 到 0xFFFF 范围的编码,称为 BMP(Basic Multilingual Plane)字符集。因此,最初 MySQL 设计时只涵盖了支持 BMP 字符集的 utf8mb3(即 utf-8)。随着需求增加,包含在 Unicode 标准中的字符数量也增加了。

因此,早期的 utf8mb3 在某些情况下无法满足需求,特别是随着 Unicode 标准支持更多字符时,三个字节的编码空间变得不足以覆盖所有字符。

为了解决这个问题,MySQL 在 5.5.3 版本之后引入了 utf8mb4 字符集。

utf8mb4 字符集具有以下特点:

  1. 支持 BMP 和补充字符,即能够表示从 0 到 0x10FFFF 的所有 Unicode 字符。
  2. 每个多字节字符最多需要四个字节来编码。

utf8mb4 与 utf8mb3 字符集不同的地方在于,utf8mb3 仅能表示 BMP 字符,而 utf8mb4 则能够处理补充字符。对于 BMP 字符,utf8mb4 和 utf8mb3 的存储方式相同,但对于补充字符,utf8mb4 需要四个字节来存储,而 utf8mb3 则无法处理这些字符。

因此,为了确保能够存储和处理 Unicode 标准中的所有字符,特别是包括 Emoji 表情在内的补充字符,建议在创建 MySQL 表时使用 utf8mb4 字符集,而不是 utf8。

UTF8MB3 和 UTF8MB4 区别及优缺点

前面已经分别介绍了 utf8mb3 和 utf8mb4 字符集,它们的区别总结如下:

  • utf8mb3 只支持 BMP(Basic Multilingual Plane)中的字符,而 utf8mb4 则支持 BMP 以及补充字符。
  • 每个字符在 utf8mb3 中最多使用 3 个字节来编码,而在 utf8mb4 中最多使用 4 个字节。
  • utf8mb4 能够表示更多的补充字符,但因为每个字符可能使用更多的字节,所以在存储空间上可能会比 utf8mb3 占用更大。

总之,utf8mb4 相比 utf8mb3 提供了更广泛的字符支持,尤其是对于包含 Emoji 表情在内的补充字符,但这也可能导致数据存储时占用更多的空间。

从 utf8mb3 转换成 utf8mb4

首先,将字符集从 utf8mb3 转换到 utf8mb4 其实并不困难:

对于 BMP 字符,utf8mb4 和 utf8mb3 具有相同的存储特性:相同的编码值、相同的编码方式以及相同的长度。

对于补充字符,utf8mb4 需要使用 4 个字节进行存储,而 utf8mb3 则无法存储这些字符。当将使用 utf8mb3 的列转换为 utf8mb4 时,您无需担心补充字符的转换问题,因为 utf8mb3 根本不支持补充字符。

假设已有一张表使用了 utf8mb3 字符集:


CREATE TABLE t1 (col1 CHAR(10) CHARACTER SET utf8 COLLATE utf8_unicode_ci NOT NULL,col2 CHAR(10) CHARACTER SET utf8 COLLATE utf8_bin NOT NULL
) CHARACTER SET utf8;

下面的语句将 t1 转换为 utf8mb4:

ALTER TABLE t1DEFAULT CHARACTER SET utf8mb4,MODIFY col1 CHAR(10)CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,MODIFY col2 CHAR(10)CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;

如有问题,欢迎微信搜索【码上遇见你】。

免费的Chat GPT可微信搜索【AI贝塔】进行体验,无限使用。

好了,本章节到此告一段落。希望对你有所帮助,祝学习顺利。

这篇关于✅生产问题之Emoji表情如何操作存储,MySQL是否支持的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1069393

相关文章

springboot循环依赖问题案例代码及解决办法

《springboot循环依赖问题案例代码及解决办法》在SpringBoot中,如果两个或多个Bean之间存在循环依赖(即BeanA依赖BeanB,而BeanB又依赖BeanA),会导致Spring的... 目录1. 什么是循环依赖?2. 循环依赖的场景案例3. 解决循环依赖的常见方法方法 1:使用 @La

MySQL双主搭建+keepalived高可用的实现

《MySQL双主搭建+keepalived高可用的实现》本文主要介绍了MySQL双主搭建+keepalived高可用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录一、测试环境准备二、主从搭建1.创建复制用户2.创建复制关系3.开启复制,确认复制是否成功4.同

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Mysql表的简单操作(基本技能)

《Mysql表的简单操作(基本技能)》在数据库中,表的操作主要包括表的创建、查看、修改、删除等,了解如何操作这些表是数据库管理和开发的基本技能,本文给大家介绍Mysql表的简单操作,感兴趣的朋友一起看... 目录3.1 创建表 3.2 查看表结构3.3 修改表3.4 实践案例:修改表在数据库中,表的操作主要

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

SpringKafka消息发布之KafkaTemplate与事务支持功能

《SpringKafka消息发布之KafkaTemplate与事务支持功能》通过本文介绍的基本用法、序列化选项、事务支持、错误处理和性能优化技术,开发者可以构建高效可靠的Kafka消息发布系统,事务支... 目录引言一、KafkaTemplate基础二、消息序列化三、事务支持机制四、错误处理与重试五、性能优

Java使用Curator进行ZooKeeper操作的详细教程

《Java使用Curator进行ZooKeeper操作的详细教程》ApacheCurator是一个基于ZooKeeper的Java客户端库,它极大地简化了使用ZooKeeper的开发工作,在分布式系统... 目录1、简述2、核心功能2.1 CuratorFramework2.2 Recipes3、示例实践3

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

mysql出现ERROR 2003 (HY000): Can‘t connect to MySQL server on ‘localhost‘ (10061)的解决方法

《mysql出现ERROR2003(HY000):Can‘tconnecttoMySQLserveron‘localhost‘(10061)的解决方法》本文主要介绍了mysql出现... 目录前言:第一步:第二步:第三步:总结:前言:当你想通过命令窗口想打开mysql时候发现提http://www.cpp

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分