在 Elasticsearch 中更新同义词:同义词 synonyms API 简介

2024-01-23 05:10

本文主要是介绍在 Elasticsearch 中更新同义词:同义词 synonyms API 简介,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:Carlos Delgado

在上一篇文章中,我们讨论了同义词及其对于提供出色搜索体验的重要性。 使用同义词可以通过以下方式改善搜索结果:

  • 查找与搜索查询使用相似词的文档
  • 使特定领域的词汇更加用户友好,以便用户使用熟悉的单词找到结果
  • 纠正常见的拼写错误或拼写错误

搜索结果需要随着时间的推移而变化。 新商品开始销售,新趋势改变了用户搜索的内容,新术语成为搜索域的一部分。 我们的搜索体验也必须不断发展。

作为改进搜索体验的一部分,保持同义词更新非常重要。 Elasticsearch® 中引入了新的同义词 synonym API,以帮助管理同义词并无缝更新它们。

此 API 简化了您更新同义词的工作流程,并提供与你的流程和工具更好的集成。

请注意:Synonym API 适用于 Elasticsearch 8.10 版本之后。

以前的同义词更新过程

正如博客文章中详细解释的,Elasticsearch 中的同义词是使用 synonym 和 synonym graph  token filter 定义的。 然后,这些 token 过滤器将作为文本字段分析的一部分包含在内。

我们已经可以通过在 synonym token 过滤器中配置同义词文件来更新搜索分析器的同义词 - 例如:

PUT /synonym_test
{"settings": {"index": {"analysis": {"analyzer": {"synonym_analyzer": {"tokenizer": "whitespace","filter": ["my_synonyms"]}},"filter": {"my_synonyms": {"type": "synonym","synonyms_path": "my_synonyms.txt","updateable": true}}}}}
}

更多关于同义词的使用,请阅读:

  • Elasticsearch:如何在 Elasticsearch 中正确使用同义词功能

  • Elasticsearch:使用同义词 synonyms 来提高搜索效率

synonym_path 定义存储同义词文件的文件路径(相对于 Elasticsearch 配置文件)。 同义词文件包含同义词规则,必须分发到集群中的所有 Elasticsearch 节点。

要更新同义词,我们需要更新每个集群节点上的同义词文件,然后使用 reload search analyzers API 为每个使用同义词文件作为其同义词标记过滤器的索引重新加载搜索分析器。

为什么要添加同义词 API?

当前更新同义词的方式涉及以下几个步骤:

  • 我们需要将同义词文件上传到 Elasticsearch 集群中的每个节点。 Elastic Cloud 用户可以上传自定义捆绑包来执行此操作。
  • 我们的同义词 token 过滤器必须配置正确的路径(该路径可以是绝对路径,也可以是相对于 Elasticsearch 配置目录的路径)。
  • 同义词文件必须在每个节点上更新并保持同步。
  • 需要为使用同义词文件的每个索引调用 Reload search analyzers API。

这是可行的,但它涉及基础设施工作,例如上传文件、保持文件最新和同步,以及了解每个同义词文件的使用位置。

使用 synonyms API

与之前基于文件的同义词更新方法相比,使用同义词 API 具有许多优点:

  • 提供基于 API 的同义词定义机制
  • 为分析过程提供自动重载机制
  • 允许细粒度同义词管理 - 你可以替换同义词集上的所有规则或单个同义词规则

定义同义词集

同义词集是要应用的一组同义词。 你可以根据需要添加任意数量的同义词集。

每个同义词集使用同义词规则定义同义词。 每个规则使用 Solr 格式定义一组同义词单词以及它们之间的显式等价项。

创建同义词集是使用创建或更新同义词集 API 完成的:

PUT _synonyms/my-synonyms-set
{"synonyms_set": [{"id": "pc","synonyms": "pc => personal computer"},{"id": "computer","synonyms": "computer,laptop"}]
}

此 API 请求创建一个带有标识符 my-synonyms-set 的新同义词集,它定义了两个同义词规则:

  • 一个带有标识符 “pc” 的同义词规则,将单词 “pc” 扩展为 “personal computer”,但反之则不然
  • 一条带有标识符 “computer” 的同义词规则,指定 “computer” 和 “laptop” 是等效的

配置同义词集

创建后,你的同义词集可以用作 synonym 或 synoynm graph token 滤器的一部分。

使用 synonyms_set 配置选项来指定在上一步中创建的同义词集标识符:

PUT /synonym_set_test
{"settings": {"index": {"analysis": {"analyzer": {"synonym_analyzer": {"tokenizer": "whitespace","filter": ["my_synonyms"]}},"filter": {"my_synonyms": {"type": "synonym","synonyms_set": "my-synonyms-set","updateable": true}}}}}
}

你的同义词已准备好可供使用! 分析器将检索配置的同义词集中定义的同义词,并将它们应用到您使用它的字段。

更新同义词集

你可以通过更新所有同义词规则来更新同义词集:

PUT _synonyms/my-synonyms-set
{"synonyms_set": [{"id": "pc","synonyms": "pc => personal computer"},{"id": "computer","synonyms": "computer, pc, laptop, desktop"}]
}

或者,你可以管理单独的同义词规则。 由于每个规则都有一个标识符,因此你可以创建、删除或更新单个同义词规则:

PUT _synonyms/my-synonyms-set/computer
{"synonyms": "computer, pc, laptop, desktop"
}

就是这样! 使用同义词集的索引将自动重新加载分析器。 你的搜索体验将可以访问更新后的同义词,无需执行进一步的步骤。

试试看!

管理你的搜索体验的同义词从未如此简单! 你现在可以使用新的 synonym API 来定义同义词并通过自动重新加载所需的分析器来更新同义词,而不是使用文件并更新每个文件和关联的索引分析器。

一探究竟! 立即创建 Elastic Cloud 集群并开始定义同义词。

我们很乐意听到您的反馈 - 加入我们的讨论论坛或社区 Slack 频道中的对话。

这篇关于在 Elasticsearch 中更新同义词:同义词 synonyms API 简介的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/635329

相关文章

一分钟带你上手Python调用DeepSeek的API

《一分钟带你上手Python调用DeepSeek的API》最近DeepSeek非常火,作为一枚对前言技术非常关注的程序员来说,自然都想对接DeepSeek的API来体验一把,下面小编就来为大家介绍一下... 目录前言免费体验API-Key申请首次调用API基本概念最小单元推理模型智能体自定义界面总结前言最

JAVA调用Deepseek的api完成基本对话简单代码示例

《JAVA调用Deepseek的api完成基本对话简单代码示例》:本文主要介绍JAVA调用Deepseek的api完成基本对话的相关资料,文中详细讲解了如何获取DeepSeekAPI密钥、添加H... 获取API密钥首先,从DeepSeek平台获取API密钥,用于身份验证。添加HTTP客户端依赖使用Jav

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下

5分钟获取deepseek api并搭建简易问答应用

《5分钟获取deepseekapi并搭建简易问答应用》本文主要介绍了5分钟获取deepseekapi并搭建简易问答应用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1、获取api2、获取base_url和chat_model3、配置模型参数方法一:终端中临时将加

使用DeepSeek API 结合VSCode提升开发效率

《使用DeepSeekAPI结合VSCode提升开发效率》:本文主要介绍DeepSeekAPI与VisualStudioCode(VSCode)结合使用,以提升软件开发效率,具有一定的参考价值... 目录引言准备工作安装必要的 VSCode 扩展配置 DeepSeek API1. 创建 API 请求文件2.

Golang的CSP模型简介(最新推荐)

《Golang的CSP模型简介(最新推荐)》Golang采用了CSP(CommunicatingSequentialProcesses,通信顺序进程)并发模型,通过goroutine和channe... 目录前言一、介绍1. 什么是 CSP 模型2. Goroutine3. Channel4. Channe

Java操作ElasticSearch的实例详解

《Java操作ElasticSearch的实例详解》Elasticsearch是一个分布式的搜索和分析引擎,广泛用于全文搜索、日志分析等场景,本文将介绍如何在Java应用中使用Elastics... 目录简介环境准备1. 安装 Elasticsearch2. 添加依赖连接 Elasticsearch1. 创

Redis缓存问题与缓存更新机制详解

《Redis缓存问题与缓存更新机制详解》本文主要介绍了缓存问题及其解决方案,包括缓存穿透、缓存击穿、缓存雪崩等问题的成因以及相应的预防和解决方法,同时,还详细探讨了缓存更新机制,包括不同情况下的缓存更... 目录一、缓存问题1.1 缓存穿透1.1.1 问题来源1.1.2 解决方案1.2 缓存击穿1.2.1

Java中的Opencv简介与开发环境部署方法

《Java中的Opencv简介与开发环境部署方法》OpenCV是一个开源的计算机视觉和图像处理库,提供了丰富的图像处理算法和工具,它支持多种图像处理和计算机视觉算法,可以用于物体识别与跟踪、图像分割与... 目录1.Opencv简介Opencv的应用2.Java使用OpenCV进行图像操作opencv安装j