重生之我们在ES顶端相遇第11 章 - 深入自定义语言分词器

2024-09-01 03:44

本文主要是介绍重生之我们在ES顶端相遇第11 章 - 深入自定义语言分词器,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

      • 0. 前言
      • 1. 英语分词器
      • 2. 阿拉伯语分词器
      • 3. 结语

0. 前言

国内企业出海是大势所趋,那么基于不同的语种进行分词就显得尤为重要,因为这会让用户的搜索体验更棒!

国内出海企业,会更偏向于选择欧美、中东这 2 个地区。

因此本文章也重点介绍英语、阿拉伯语的分词。

在 ES 中内置的分词器中,有一个叫 Language analyzers,我们可以根据该分词器,自定义出符合业务需求的特定语言分词器。

1. 英语分词器

英语分词器一般而言应该满足以下要求

  1. 不区分大小写
  2. 去掉英语停顿词
  3. 具有相同的词干可以被认为是同一个词,例如 friends = fried
  4. 可能还需要有同义词,例如 quick = fast

Ok,基于以上要求,我们来自定义一个英文分词器。

  • 不区分大小写,ES 有现成的 token filters: lowercase token filter
  • 去掉英语停顿词,ES 有现成的 token filters: stop token filter。并且 stop token filter 对多个语种均有支持
  • 词干提取器,ES 有现成的 token filters: stemmer token filter。并且 stemmer token filter 对多个语种均有支持
  • 同义词,ES 有现成的 token filters: synonym token filter, 不过需要我们提前定义好哪些词属于同义词。

OK,接下来,让我们看下具体的 Mapping 如何编写

PUT test9_en

{"mappings": {"properties": {"text": {"type": "text","analyzer": "my_custom_analyzer"}}},"settings": {"analysis": {"analyzer": {"my_custom_analyzer": {"tokenizer": "standard","filter": ["lowercase","english_stop","english_stemmer","english_synonym"]}},"filter": {"english_stop": {"type": "stop","stopwords": "_english_"},"english_stemmer": {"type": "stemmer","language": "english"},"english_synonym": {"type": "synonym","synonyms": [ "quick => fast" ]}}}}
}

接下来,我们验证下效果
GET test9_en/_analyze

{"analyzer": "my_custom_analyzer","text": "the Friends quick"
}

输出如下

{"tokens" : [{"token" : "friend","start_offset" : 4,"end_offset" : 11,"type" : "<ALPHANUM>","position" : 1},{"token" : "fast","start_offset" : 12,"end_offset" : 17,"type" : "SYNONYM","position" : 2}]
}

符合我们的预期:

  • the 是停顿词,被过滤掉
  • Friends 的词干为 friend;同时因为 lowercase token filter 的存在,大小被转换为小写了
  • quick 和 fast 是同义词

ES 内置了非常丰富的 token filter 更多可以参考 ES token filter 官网

2. 阿拉伯语分词器

阿拉伯语分词器做法和英语类似,
对于 stop token filterstemmer token filter 均支持阿拉伯语。

在英语中,字母有大小写,而在阿拉伯语中,则存在不同字母的变形,因此我们需要将文本先做归一化处理。

这需要用到 ES 的 Normalizers。用于将文本进行归一化处理。
本质上 lowercase token filter 就是一种 Normalizers,即将所有文本都统一修改为小写
更详细的介绍,参考 ES Normalizers 官网

那么其 Mapping 如下

PUT test9_alb

{"mappings": {"properties": {"text": {"type": "text","analyzer": "arabic"}}},"settings": {"analysis": {"filter": {"arabic_stop": {"type": "stop","stopwords": "_arabic_"},"arabic_stemmer": {"type": "stemmer","language": "arabic"}},"analyzer": {"arabic": {"tokenizer": "standard","filter": ["arabic_normalization","arabic_stop","arabic_stemmer"]}}}}
}

我对阿拉伯语也不熟悉,这里就不进行效果验证了。

3. 结语

该篇我们探讨了如何实现英语、阿拉伯语的分词器。理论上其他语种的分词器也是类似的做法。

这篇关于重生之我们在ES顶端相遇第11 章 - 深入自定义语言分词器的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1125846

相关文章

深入解析Spring TransactionTemplate 高级用法(示例代码)

《深入解析SpringTransactionTemplate高级用法(示例代码)》TransactionTemplate是Spring框架中一个强大的工具,它允许开发者以编程方式控制事务,通过... 目录1. TransactionTemplate 的核心概念2. 核心接口和类3. TransactionT

深入理解Apache Airflow 调度器(最新推荐)

《深入理解ApacheAirflow调度器(最新推荐)》ApacheAirflow调度器是数据管道管理系统的关键组件,负责编排dag中任务的执行,通过理解调度器的角色和工作方式,正确配置调度器,并... 目录什么是Airflow 调度器?Airflow 调度器工作机制配置Airflow调度器调优及优化建议最

深入理解C语言的void*

《深入理解C语言的void*》本文主要介绍了C语言的void*,包括它的任意性、编译器对void*的类型检查以及需要显式类型转换的规则,具有一定的参考价值,感兴趣的可以了解一下... 目录一、void* 的类型任意性二、编译器对 void* 的类型检查三、需要显式类型转换占用的字节四、总结一、void* 的

深入理解Redis大key的危害及解决方案

《深入理解Redis大key的危害及解决方案》本文主要介绍了深入理解Redis大key的危害及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 目录一、背景二、什么是大key三、大key评价标准四、大key 产生的原因与场景五、大key影响与危

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

深入探索协同过滤:从原理到推荐模块案例

文章目录 前言一、协同过滤1. 基于用户的协同过滤(UserCF)2. 基于物品的协同过滤(ItemCF)3. 相似度计算方法 二、相似度计算方法1. 欧氏距离2. 皮尔逊相关系数3. 杰卡德相似系数4. 余弦相似度 三、推荐模块案例1.基于文章的协同过滤推荐功能2.基于用户的协同过滤推荐功能 前言     在信息过载的时代,推荐系统成为连接用户与内容的桥梁。本文聚焦于

【C++高阶】C++类型转换全攻略:深入理解并高效应用

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C++ “ 登神长阶 ” 🤡往期回顾🤡:C++ 智能指针 🌹🌹期待您的关注 🌹🌹 ❀C++的类型转换 📒1. C语言中的类型转换📚2. C++强制类型转换⛰️static_cast🌞reinterpret_cast⭐const_cast🍁dynamic_cast 📜3. C++强制类型转换的原因📝

深入手撕链表

链表 分类概念单链表增尾插头插插入 删尾删头删删除 查完整实现带头不带头 双向链表初始化增尾插头插插入 删查完整代码 数组 分类 #mermaid-svg-qKD178fTiiaYeKjl {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-

深入理解RxJava:响应式编程的现代方式

在当今的软件开发世界中,异步编程和事件驱动的架构变得越来越重要。RxJava,作为响应式编程(Reactive Programming)的一个流行库,为Java和Android开发者提供了一种强大的方式来处理异步任务和事件流。本文将深入探讨RxJava的核心概念、优势以及如何在实际项目中应用它。 文章目录 💯 什么是RxJava?💯 响应式编程的优势💯 RxJava的核心概念