Unicode,Emoji和emoji-java

2024-03-05 02:59
文章标签 java unicode emoji

本文主要是介绍Unicode,Emoji和emoji-java,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前些天在做一个翻译需求的时候,需要对全部是 emoji 表情的字符串不显示翻译按钮,虽然调用翻译接口后对 emoji 表情的翻译还是原来的 emoji 表情,并且我觉得这种效果更好,但是奈何 iOS 已经实现了这个功能,作为一个 Android 研发,已经习惯了向 iOS 低头,所以研究了一下,发现实现并没有想象的那么简单,要想做到完美需要极大的工作量,所以下面简单的对 Unicode,Emoji 以及一个处理 emoji 的 Java 开源库 emoji-java 进行简单的介绍整理,希望对你有所帮助。

Unicode

之前在学校的时候,接触比较多的是 ASCII 码,ASCII 码使用一个字节(byte)表示一个字符,每一个字节有8位,所以最多能够表示28 = 256个字符,但是到现在为止才总共定义了128个字符,所以它真正用来表示字符的才有7位,通常第一位是0。ASCII 码用来表示所有的大写和小写字母,数字0 到9、标点符号,以及在美式英语中使用的特殊控制字符。ASCII 码最多能够表示256个字符,这对二十六的大写字母和二十六个小写字母来说绰绰有余,但是对于我们博大精深的汉语以及其他的语言比如由汉语演化的日语韩语等来说,是远远不够的,所以需要一种新的编码方式和规范,Unicode因此而生。

Unicode,官方中文名称为统一码,也译名为万国码国际码单一码,是计算机科学领域的业界标准。它整理、编码了世界上大部分的文字系统,使得电脑可以用更为简单的方式来呈现和处理文字。在 Unicode 中,每一个字符都有其对应的编码,称为“码点”(code point)。表示一个Unicode的字符时,通常会写作“U+xxxxx”,其中 x 表示一组十六进制的数字。比如:U+4E25,U+1F600, U+1F601。

Unicode 将用途或意思相近的码点编排到同一组,称为平面(plane),而每个平面拥有65536(即216)个码点,目前 Unicode 共有17个平面但只使用了少数几个平面。

截屏2021-08-03 下午4.27.22.png

如果每个字符都能在 Unicode 中找到其对应的码点,那处理起来应该不会有太大的问题,但是在 Unicode 中存在“组合字”的概念,使用者可以通过组合多个码点,“拼”出一个完整的字,例如,Á 实际可以由U+0041(“A”)与U+0301 (“◌́” )组合而成。在不同的环境里,U+0301可能会展示成不同的样子,不过如果你的软件支持,它应该会很像是一个拼音二声的样子。

Emoij

了解了 Unicode 之后,我们就可以来看看 Emoji 这种特殊的字符。

表情符号(英语:emoji,日语:絵文字/えもじ emoji),是使用在网页和聊天中的形意符号,最初是日本在无线通信中所使用的视觉情感符号(图画文字)。表情意指面部表情,图标则是图形标志的意思,可用来代表多种表情,如笑脸表示笑、蛋糕表示食物等。在中国香港除“表情图标”外,也有称作“绘文字”或“emoji”。在中国台湾 LINE 软件中,emoji又被叫做“表情贴”。在中国大陆,emoji通常直称“emoji”或称“表情符号”。

2010年10月发布的Unicode 6.0版首次收录emoji编码,其中582个emoji符号,66个已在其他位置编码,保留作相容用途的emoji符号。在Unicode 9.0 用22区块中共计1,126个字符表示emoji,其中1,085个是独立emoji字符,26个是用来显示旗帜的区域指示符号以及 12 个(#, * and 0-9)键帽符号。

当然,目前收录的这些 emoji 都有其唯一对应的码点,但是前面说过,Unicode 中存在“组合字”的概念,我们可以通过组合码点去“拼凑”出一个文字,显然 emoji 作为 Unicode 中的一份子也是支持这种特性的。

在 Unicode 中,可以使用U+200D零宽连字(ZWJ)将两个emoji连起来,使其看起来像是一个emoji。(不支持的系统会忽略零宽连字)

例如U+1F468男人、U+200D ZWJ、U+1F469女人、U+200D ZWJ、U+1F467女孩(👨‍👩‍👧)在系统支持的情况下会显示为一个男人一个女人和一个女孩组成的家庭emoji,而不支持的系统则会顺序显示这三个emoji(👨👩👧)。

除了不同 emoji 的组合,emoji 还支持肤色的控制。Unicode 8.0中加入了5个修饰符,用来调节人形表情的肤色。这些叫做emoji菲茨帕特里克修饰符(EMOJI MODIFIER FITZPATRICK)类型-1-2、-3、-4、-5和-6(U+1F3FB ~ U+1F3FF):🏻 🏼 🏽 🏾 🏿。对应了菲茨帕特里克度量对人类肤色的分类。没有后缀肤色代码的emoji会显示非真实的通用肤色例如亮黄色(█)、蓝色(█)或灰色(█)。非人形表情则不受修饰符影响。在Unicode 9.0中菲茨帕特里克修饰符可以和86个人形emoji一起使用。

截屏2021-08-03 下午5.18.42.png

emoji-java

通过上面的了解,我们对 emoji 和 Unicode 有了一定的了解,但是当我们在项目中去处理 emoji 时,还是较为复杂的,一是因为 emoji 在 Unicode 中的码点较为分散,并没有集中在某一区域,如果需要尽可能正确的找出在字符串中的每一个 emoji ,需要较多的判断条件;二是因为 Unicode 能够进行组合,如果对单独字符的码点进行判断,容易出现漏盘错判的现象。

在开头说了,之所以研究这个问题是因为我在项目开发中有这个需求,第一时间我查找了很多的资料,但都无法进行完美的判断处理,总会有些 emoji 无法被识别,这些方法大都是对其码点值进行判断,所以出现遗漏也情有可原,毕竟 emoji 在 Unicode 中不是集中的。最终我找到了一个 Java 的开源库 —— emoji-java( Github 地址),他几乎可以识别和处理现有的所有 emoji,至于为什么它能够做到如此的全面准确,后面再说,先介绍一下它的主要用法。

1.添加依赖

Maven

<dependency><groupId>com.vdurmont</groupId><artifactId>emoji-java</artifactId><version>5.1.1</version>
</dependency>

Gradle

compile 'com.vdurmont:emoji-java:5.1.1'

2.主要方法

getForTag //返回给定标签的所有表情符号
getForAlias //返回别名的表情符号
getAll //返回所有表情符号
isEmoji //检查字符串是否是表情符号
containsEmoji //检查字符串是否包含任何表情符号
getAllTags //返回可用的标签
getAll //返回所有表情符号

示例:

String str = "An 😀awesome 😃string with a few 😉emojis!";
Collection<Emoji> collection = new ArrayList<Emoji>();
collection.add(EmojiManager.getForAlias("wink")); // This is 😉System.out.println(EmojiParser.removeAllEmojis(str));
System.out.println(EmojiParser.removeAllEmojisExcept(str, collection));
System.out.println(EmojiParser.removeEmojis(str, collection));// Prints:
// "An awesome string with a few emojis!"
// "An awesome string with a few 😉emojis!"
// "An 😀awesome 😃string with a few emojis!"

了解了基本用法之后,我们来看看 emoji-java 的实现原理,实际上在 emoji-java 中有一个 json 文件,其中存储了目前所有的 emoji,如图。

截屏2021-08-03 下午5.54.07.png

它几乎包含了所有的emoji,包括进行组合的emoji,然后通过 EmojiLoader 类解析这个 json 文件转换为 Emoji 对象。

public static List<Emoji> loadEmojis(InputStream stream) throws IOException {JSONArray emojisJSON = new JSONArray(inputStreamToString(stream));List<Emoji> emojis = new ArrayList<Emoji>(emojisJSON.length());for (int i = 0; i < emojisJSON.length(); i++) {Emoji emoji = buildEmojiFromJSON(emojisJSON.getJSONObject(i));if (emoji != null) {emojis.add(emoji);}}return emojis;
}

Emoji 类的结构如下:

public class Emoji {private final String description;private final boolean supportsFitzpatrick;private final List<String> aliases;private final List<String> tags;private final String unicode;private final String htmlDec;private final String htmlHex;
}

其所有的操作都是基于 emoji 类进行的,它还有一个叫做Fitzpatrick的枚举类,主要内容就是上面说的5个肤色的修饰符。

public enum Fitzpatrick {/*** Fitzpatrick modifier of type 1/2 (pale white/white)*/TYPE_1_2("\uD83C\uDFFB"),/*** Fitzpatrick modifier of type 3 (cream white)*/TYPE_3("\uD83C\uDFFC"),/*** Fitzpatrick modifier of type 4 (moderate brown)*/TYPE_4("\uD83C\uDFFD"),/*** Fitzpatrick modifier of type 5 (dark brown)*/TYPE_5("\uD83C\uDFFE"),/*** Fitzpatrick modifier of type 6 (black)*/TYPE_6("\uD83C\uDFFF"); 
}

在进行字符串匹配时,它是通过树的形式进行匹配的,因为 emoji 是可以连接的,所以通过树的形式向下遍历可以组合出一个完整的emoji。

但是我觉得这个方法还是过于繁琐,如果有更好的方法欢迎大家进行补充。

参考:

从Unicode到emoji

维基百科

emoji-java

这篇关于Unicode,Emoji和emoji-java的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/775124

相关文章

Maven中引入 springboot 相关依赖的方式(最新推荐)

《Maven中引入springboot相关依赖的方式(最新推荐)》:本文主要介绍Maven中引入springboot相关依赖的方式(最新推荐),本文给大家介绍的非常详细,对大家的学习或工作具有... 目录Maven中引入 springboot 相关依赖的方式1. 不使用版本管理(不推荐)2、使用版本管理(推

Java 中的 @SneakyThrows 注解使用方法(简化异常处理的利与弊)

《Java中的@SneakyThrows注解使用方法(简化异常处理的利与弊)》为了简化异常处理,Lombok提供了一个强大的注解@SneakyThrows,本文将详细介绍@SneakyThro... 目录1. @SneakyThrows 简介 1.1 什么是 Lombok?2. @SneakyThrows

在 Spring Boot 中实现异常处理最佳实践

《在SpringBoot中实现异常处理最佳实践》本文介绍如何在SpringBoot中实现异常处理,涵盖核心概念、实现方法、与先前查询的集成、性能分析、常见问题和最佳实践,感兴趣的朋友一起看看吧... 目录一、Spring Boot 异常处理的背景与核心概念1.1 为什么需要异常处理?1.2 Spring B

如何在 Spring Boot 中实现 FreeMarker 模板

《如何在SpringBoot中实现FreeMarker模板》FreeMarker是一种功能强大、轻量级的模板引擎,用于在Java应用中生成动态文本输出(如HTML、XML、邮件内容等),本文... 目录什么是 FreeMarker 模板?在 Spring Boot 中实现 FreeMarker 模板1. 环

SpringMVC 通过ajax 前后端数据交互的实现方法

《SpringMVC通过ajax前后端数据交互的实现方法》:本文主要介绍SpringMVC通过ajax前后端数据交互的实现方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价... 在前端的开发过程中,经常在html页面通过AJAX进行前后端数据的交互,SpringMVC的controll

Java中的工具类命名方法

《Java中的工具类命名方法》:本文主要介绍Java中的工具类究竟如何命名,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录Java中的工具类究竟如何命名?先来几个例子几种命名方式的比较到底如何命名 ?总结Java中的工具类究竟如何命名?先来几个例子JD

Java Stream流使用案例深入详解

《JavaStream流使用案例深入详解》:本文主要介绍JavaStream流使用案例详解,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录前言1. Lambda1.1 语法1.2 没参数只有一条语句或者多条语句1.3 一个参数只有一条语句或者多

Spring Security自定义身份认证的实现方法

《SpringSecurity自定义身份认证的实现方法》:本文主要介绍SpringSecurity自定义身份认证的实现方法,下面对SpringSecurity的这三种自定义身份认证进行详细讲解,... 目录1.内存身份认证(1)创建配置类(2)验证内存身份认证2.JDBC身份认证(1)数据准备 (2)配置依

SpringBoot整合OpenFeign的完整指南

《SpringBoot整合OpenFeign的完整指南》OpenFeign是由Netflix开发的一个声明式Web服务客户端,它使得编写HTTP客户端变得更加简单,本文为大家介绍了SpringBoot... 目录什么是OpenFeign环境准备创建 Spring Boot 项目添加依赖启用 OpenFeig

Java Spring 中 @PostConstruct 注解使用原理及常见场景

《JavaSpring中@PostConstruct注解使用原理及常见场景》在JavaSpring中,@PostConstruct注解是一个非常实用的功能,它允许开发者在Spring容器完全初... 目录一、@PostConstruct 注解概述二、@PostConstruct 注解的基本使用2.1 基本代