Elasticsearch:理解近似最近邻 (ANN) 算法

2024-05-02 21:20

本文主要是介绍Elasticsearch:理解近似最近邻 (ANN) 算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作者:来自 Elastic Elastic Platform Team

如果你是在互联网出现之前长大的,你会记得找到新喜好并不总是那么容易。我们是在无意中听到收音机里的新乐队时发现他们的,是因为忘了换频道偶然看到一个新电视节目的,也是几乎完全依据游戏封面的图片来找到新喜欢的视频游戏的。

如今,情况大为不同。Spotify 会向我推荐符合我的口味的艺术家,Netflix 会突出显示它知道我们会喜欢的电影和电视节目,Xbox 知道我们接下来可能想玩什么。这些推荐系统让我们更容易找到我们实际在寻找的东西,它们由最近邻(nearest neighbor - NN)算法驱动。NN 算法查看它可用的广泛信息海洋,并识别与你喜欢的东西或你正在寻找的东西最接近的东西。

但 NN 算法有一个固有的缺陷。如果它们分析的数据量太大,遍历每一个选项将永无止境。这尤其是问题,因为这些数据源每年都在变得越来越大。这就是近似最近邻(ANN)接过NN的接力棒并改变游戏规则的地方。

在本文中,我们将讨论关于 ANN 的以下关键主题:

  • ANN 的定义 
  • ANN 的工作原理
  • 何时使用 ANN 搜索
  • ANN 在向量搜索中的重要性
  • 各种类型的 ANN 算法

近似最近邻解释

近似最近邻(approximate nearest neighbor - ANN)是一种算法,它在数据集中找到一个非常接近给定查询点的数据点,但不一定是绝对最接近的一个。一个最近邻(NN)算法通过对所有数据进行详尽搜索来找到完美匹配,而近似最近邻(ANN)算法则会接受一个足够接近的匹配。

这听起来可能不是最好的解决方案,但实际上它是实现快速相似性搜索的关键。ANN 利用智能的快捷方式和数据结构来高效地遍历搜索空间。因此,它可以在大大减少时间和资源的情况下,识别出足够接近的数据点,在大多数实际场景中都是有用的。

基本上,这是一种权衡。如果你绝对需要找到最佳匹配,你可以通过 NN 来实现,但这会牺牲速度和性能。但是,如果你可以容忍精度的微小下降,ANN 几乎总是一个更好的解决方案。

近似最近邻(ANN)算法的

工作原理的第一部分是降维,其目标是将高维数据集转化为低维数据集。其目的是使预测模型任务比分析所有数据更简单、更高效。

这些算法基于数学概念的度量空间,其中数据点存在并且它们之间的距离被定义。这些距离必须遵循特定的规则(非负性、恒等性、对称性、三角不等式),常见的函数如欧几里得距离或余弦相似度用于计算它们。

为了更好地理解这一点,想象一下你在度假,正在寻找你租的别墅。与其逐一检查每栋建筑(高维),你可以使用地图,将问题简化为二维(低维)。(这是一个故意简化的例子。降维并不是 ANN 算法改善效率的唯一方法。)

ANN 算法还利用称为索引的巧妙数据结构来提高效率。通过将数据预处理成这些索引,ANN 可以更快地遍历搜索空间。可以将这些想象成街道标志,帮助你在地图上找到你的位置,更快地到达度假别墅。

何时使用近似最近邻搜索

在数据科学的快速发展世界中,效率至上。虽然找到真正最近的邻居(精确最近邻搜索)具有价值,但它常常需要较大的计算成本,正如我们已经讨论过的。这就是近似最近邻(ANN)搜索发光发热的地方,它提供了一个有吸引力的折衷方案:闪电般的速度与高但非绝对的准确性。

但是,确切地说,你应该在什么情况下选择 ANN 而不是其他搜索方法呢?

精确最近邻搜索可能很慢,但当精确度是你的首要任务或你正在使用小数据集时,它是最佳选择。k-nearest neighbors(kNN)位于 NN 和 ANN 之间,它在保持高准确性的同时提供更快的结果。但是,在决定k的值时可能难以准确把握,它也难以处理高维数据。

ANN 的速度和效率结合其高(但非绝对的)准确性,使其在许多情况下非常完美:

  • 大数据集:当处理百万甚至十亿级的数据点时,精确 NN 的详尽性质变得缓慢。ANN 在浏览庞大的数据景观中表现出色,迅速提供结果。
  • 高维数据:随着维度的增加,精确 NN 的计算量激增。ANN 的降维技术有效地缩小了搜索空间并提高了复杂数据(如图像或文本)的效率。
  • 实时应用:需要即时结果吗?推荐系统、欺诈检测和异常检测依赖于实时洞察。ANN 的速度使其非常适合这些场景。
  • 可接受的近似:如果你的应用可以容忍结果中的轻微不准确,ANN 的速度变得非常宝贵。例如,在图像搜索中,找到视觉上相似的图像 —— 而不是绝对最接近的一个 —— 可能就足够了。

ANN 在向量搜索中的重要性

向量搜索涉及将数据编码为密集向量,捕捉复杂的关系和嵌入式含义。这使得它非常适合搜索图像、文本和用户偏好等内容,而传统的基于关键词的搜索往往表现不佳。但是,维度诅咒也同样适用于这里。因为随着代表这些向量的维度数量增加,传统的搜索方法也会遇到困难,变得缓慢且低效。

ANN 通过将重点从寻找精确匹配转变为 “足够接近” 的匹配来解决了这个问题。这使得快速检索成为可能,你的向量搜索可以在庞大的数据集中快速找到相似的向量。它还提供了内置的可扩展性,因此你可以随意扩展数据集,而无需牺牲速度。

这些实时响应与提高的相关性和效率结合在一起,通常意味着 ANN 在释放向量搜索的真正潜力方面可能发挥着至关重要的作用。

近似最近邻算法的类型

虽然 ANN 的概念在搜索中提供了令人信服的速度优势,但实际上,这个术语涵盖了多种算法的多样化工具箱。它们都有各自的优势和权衡,了解这些细微差别在选择适合特定数据和搜索需求的正确工具时至关重要。

KD - trees

KD-trees 将数据点组织成分层树结构,根据特定维度对空间进行分区。这使得在低维空间和基于欧几里德距离的查询中能够进行快速高效的搜索。

但是,虽然 KD-trees 在低维空间中寻找最近邻时表现出色,但它们受到 “维度诅咒” 的影响。这是指随着维度数量的增加,点之间的距离会变得非常大。在这些高维空间中,KD-trees 基于单个轴进行分割的策略变得不再有效。这使得搜索需要检查大部分数据,失去了效率优势,并接近于简单线性扫描所有点的缓慢过程。

局部敏感哈希(locality-sensitive hashing - LSH)

LSH 是一种强大的 ANN 技术,通过将数据点 “哈希” 到较低维度的空间中,以一种巧妙地保留它们相似关系的方式进行工作。这种聚类使它们更容易被找到,并且使 LSH 能够在搜索大规模、高维度的数据集(如图像或文本)时表现出色,既具有速度又具有可扩展性。而且,在返回 “足够接近” 的匹配结果时,它仍能保持良好的准确性。但请记住,LSH 有时也可能产生误报(将非相似点视为相似),其有效性可能会根据距离度量和数据类型而有所不同。有各种各样的LSH家族专门设计用于处理不同的度量标准(例如欧几里德距离、Jaccard 相似性),这意味着 LSH 具有很强的通用性。

Annoy

Annoy(Approximate Nearest Neighbors Oh Yeah)并不是单一的算法,而是一个开源的 C++ 库,使用自己的算法来构建和查询树,而不是直接实现 LSH 或 KD-trees。它旨在实现在高维空间中的内存高效和快速搜索,适用于实时查询。实质上,它是一个提供了灵活性,适用于不同数据类型和搜索场景的用户友好接口。Annoy 的优势在于在一个平台上利用多种 ANN 方法,使你可以选择最适合你需求的方法。虽然它简化了流程,但请记住,在 Annoy 中选择正确的内部算法对于获得最佳性能至关重要,而其有效性仍取决于你的数据和准确性要求等因素。

线性扫描算法 - Liear scan algorithm

虽然通常不被分类为 ANN 技术,但值得一提的是线性扫描,因为它是一种蛮力方法,可以为你提供与其他 ANN 算法类似的结果。它按顺序迭代每个数据点,计算记录之间的距离并跟踪最佳匹配项。由于算法的简单性,它易于实现,适用于小数据集。基本方法的缺点是对于大数据集而言效率低下,在处理高维数据时速度慢,并且在实时应用中不实用。

选择合适的 ANN

在选择 ANN 之前,你应该考虑以下几点:

  • 数据集大小和维度:对于大型和高维数据,考虑使用局部敏感哈希;对于较小和低维数据,可以考虑使用 KD-trees。
  • 期望的准确度水平:如果绝对精确度至关重要,则线性扫描可能是最佳选择;否则,可以考虑 LSH 或 Annoy,以实现速度与准确度的平衡。
  • 计算资源:Annoy 提供了灵活性,但在选择其中的算法之前,请考虑内存和处理能力的限制。

记住,没有一种解决方案适用于所有情况。尝试不同的 ANN 算法,并评估它们在你特定数据上的性能,以找到最适合你向量搜索需求的完美匹配。除了这些选项之外,ANN 算法的世界不断发展,因此值得保持关注,以免错过可能改进你搜索的新内容。

ANN 是更好搜索的秘密武器

庞大而复杂的数据世界需要高效的工具来穿越其迷宫。这就是 ANN 可以成为将你的相似性搜索从普通提升到出色的秘密武器的地方。它提供了速度和可伸缩性,尽管在轻微准确度上有所妥协。而且,每周都有研究和发展工作,这将为 ANN 领域的动态性做出贡献。例如,量子计算和机器学习方面的进步可能会导致新型的 ANN 算法,这些算法甚至更快更高效。

我们已经探讨了不同的 ANN 算法,每种算法都有其独特的优势和劣势。但最终,最佳选择取决于你的具体需求。考虑数据大小、维度、准确度要求和资源等因素。进行实验,探索,并选择适合你的 ANN 算法,以充分发挥其潜力。从图像搜索到欺诈检测,这些算法可以产生巨大的影响,快速揭示隐藏的联系,并赋予数据驱动的洞察力。

因此,下次你搜索下一首歌曲、电影或视频游戏时,请记住幕后的默默英雄 —— ANN 算法 —— 它们连接着各种信息,产生联系。

接下来你应该做什么

当你准备好时,我们有四种方式可以帮助你利用你企业数据的洞察力:

  1. 开始免费试用,了解 Elastic 如何帮助你的业务。
  2. 参观我们的解决方案,了解 Elasticsearch 平台的工作原理以及我们的解决方案如何满足你的需求。
  3. 探索如何将生成式人工智能应用于企业。
  4. 将本文与你认识的可能感兴趣的人分享。通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。

原文:Understanding the approximate nearest neighbor (ANN) algorithm | Elastic Blog

这篇关于Elasticsearch:理解近似最近邻 (ANN) 算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/955159

相关文章

深入理解C++ 空类大小

《深入理解C++空类大小》本文主要介绍了C++空类大小,规定空类大小为1字节,主要是为了保证对象的唯一性和可区分性,满足数组元素地址连续的要求,下面就来了解一下... 目录1. 保证对象的唯一性和可区分性2. 满足数组元素地址连续的要求3. 与C++的对象模型和内存管理机制相适配查看类对象内存在C++中,规

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

康拓展开(hash算法中会用到)

康拓展开是一个全排列到一个自然数的双射(也就是某个全排列与某个自然数一一对应) 公式: X=a[n]*(n-1)!+a[n-1]*(n-2)!+...+a[i]*(i-1)!+...+a[1]*0! 其中,a[i]为整数,并且0<=a[i]<i,1<=i<=n。(a[i]在不同应用中的含义不同); 典型应用: 计算当前排列在所有由小到大全排列中的顺序,也就是说求当前排列是第

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

csu 1446 Problem J Modified LCS (扩展欧几里得算法的简单应用)

这是一道扩展欧几里得算法的简单应用题,这题是在湖南多校训练赛中队友ac的一道题,在比赛之后请教了队友,然后自己把它a掉 这也是自己独自做扩展欧几里得算法的题目 题意:把题意转变下就变成了:求d1*x - d2*y = f2 - f1的解,很明显用exgcd来解 下面介绍一下exgcd的一些知识点:求ax + by = c的解 一、首先求ax + by = gcd(a,b)的解 这个

综合安防管理平台LntonAIServer视频监控汇聚抖动检测算法优势

LntonAIServer视频质量诊断功能中的抖动检测是一个专门针对视频稳定性进行分析的功能。抖动通常是指视频帧之间的不必要运动,这种运动可能是由于摄像机的移动、传输中的错误或编解码问题导致的。抖动检测对于确保视频内容的平滑性和观看体验至关重要。 优势 1. 提高图像质量 - 清晰度提升:减少抖动,提高图像的清晰度和细节表现力,使得监控画面更加真实可信。 - 细节增强:在低光条件下,抖

【数据结构】——原来排序算法搞懂这些就行,轻松拿捏

前言:快速排序的实现最重要的是找基准值,下面让我们来了解如何实现找基准值 基准值的注释:在快排的过程中,每一次我们要取一个元素作为枢纽值,以这个数字来将序列划分为两部分。 在此我们采用三数取中法,也就是取左端、中间、右端三个数,然后进行排序,将中间数作为枢纽值。 快速排序实现主框架: //快速排序 void QuickSort(int* arr, int left, int rig

csu1328(近似回文串)

题意:求近似回文串的最大长度,串长度为1000。 解题思路:以某点为中心,向左右两边扩展,注意奇偶分开讨论,暴力解即可。时间复杂度O(n^2); 代码如下: #include<iostream>#include<algorithm>#include<stdio.h>#include<math.h>#include<cstring>#include<string>#inclu

poj1330(LCA最近公共祖先)

题意:求最近公共祖先 思路:之前学习了树链剖分,然后我就用树链剖分的一小部分知识就可以解这个题目了,记录每个结点的fa和depth。然后查找时,每次将depth大的结点往上走直到x = y。 代码如下: #include<iostream>#include<algorithm>#include<stdio.h>#include<math.h>#include<cstring>