构建高效搜索系统 - Faiss向量数据库的快速入门

2024-08-28 07:28

本文主要是介绍构建高效搜索系统 - Faiss向量数据库的快速入门,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

快速入门

 创建第一个Faiss索引

 加载数据到索引中

执行基本查询

评估索引性能


快速入门

 创建第一个Faiss索引

先需要导入必要的库,并定义一个索引对象。使用最基础的Flat索引作为例子。

import numpy as np
import faiss# 设置向量的维度
d = 128# 创建一个Flat索引,使用L2(欧几里得)距离
index = faiss.IndexFlatL2(d)# 打印索引信息
print("Index created:", index)

先导入numpyfaiss库。指定了向量的维度为128,并创建一个基于L2距离的Flat索引对象。IndexFlatL2是最简单的索引类型,会在内存中存储所有的向量,并计算所有向量间的距离来找出最近邻。

 加载数据到索引中

需要生成一些随机向量数据,并将其添加到刚刚创建的索引中。

# 生成10000个随机向量
nb = 10000
np.random.seed(1234)  # 设置随机种子以确保每次运行都得到相同结果
xb = np.random.random((nb, d)).astype('float32')# 将向量数据归一化到单位长度
xb /= np.linalg.norm(xb, axis=1, keepdims=True)# 添加向量到索引
index.add(xb)
print("Vectors added to index.")

在这个步骤中,先设定了要添加的向量数量为10000个,并生成这些向量。为使距离度量更加有效,将向量进行了归一化处理。最后调用了add方法将这些向量添加到了索引中。

执行基本查询

可以尝试使用一些查询向量来测试索引是否正常工作。

# 生成10个查询向量
nq = 10
xq = np.random.random((nq, d)).astype('float32')
xq /= np.linalg.norm(xq, axis=1, keepdims=True)# 执行搜索,返回每个查询向量的k个最近邻
k = 4
D, I = index.search(xq, k)# 输出结果
print("Distances:")
print(D)
print("Indices:")
print(I)

这里生成了10个查询向量,并设置了返回最近邻的数量为4。index.search函数执行了实际的搜索操作,并返回了两组结果:D表示查询向量到最近邻的距离,I表示这些最近邻的索引号。

评估索引性能

为了评估索引的性能,可以测量查询所需的时间,并检查返回结果的正确性。

import time# 测量搜索耗时
start_time = time.time()
D, I = index.search(xq, k)
end_time = time.time()# 计算查询时间
search_time = end_time - start_time
print(f"Search took {search_time:.4f} seconds.")# 检查结果是否合理
print("Checking results...")
assert D.shape == (nq, k)
assert I.shape == (nq, k)
print("Results are valid.")

     在这段代码中使用Python的time模块来记录搜索操作的起始和结束时间,从而计算出总的查询耗时。还通过断言检查了返回结果的形状是否符合预期,以此验证结果的有效性。

这篇关于构建高效搜索系统 - Faiss向量数据库的快速入门的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1114111

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Golang使用etcd构建分布式锁的示例分享

《Golang使用etcd构建分布式锁的示例分享》在本教程中,我们将学习如何使用Go和etcd构建分布式锁系统,分布式锁系统对于管理对分布式系统中共享资源的并发访问至关重要,它有助于维护一致性,防止竞... 目录引言环境准备新建Go项目实现加锁和解锁功能测试分布式锁重构实现失败重试总结引言我们将使用Go作

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

Rust中的Option枚举快速入门教程

《Rust中的Option枚举快速入门教程》Rust中的Option枚举用于表示可能不存在的值,提供了多种方法来处理这些值,避免了空指针异常,文章介绍了Option的定义、常见方法、使用场景以及注意事... 目录引言Option介绍Option的常见方法Option使用场景场景一:函数返回可能不存在的值场景

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发

TP-LINK/水星和hasivo交换机怎么选? 三款网管交换机系统功能对比

《TP-LINK/水星和hasivo交换机怎么选?三款网管交换机系统功能对比》今天选了三款都是”8+1″的2.5G网管交换机,分别是TP-LINK水星和hasivo交换机,该怎么选呢?这些交换机功... TP-LINK、水星和hasivo这三台交换机都是”8+1″的2.5G网管交换机,我手里的China编程has