AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南

本文主要是介绍AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在人工智能大模型领域, 离不开NLP技术,在NLP中词向量是一种基本元素,如何存储这些元素呢? 可以使用向量数据库ChromeDB
5637557320fbfb3292307735f0b8acd53a791241.png@112w_112h.png

Chroma

Chroma 是 AI 原生开源矢量数据库。Chroma 通过为 LLM 提供知识、事实和技能,使构建 LLM 应用程序变得容易。同时也是实现大模型RAG技术方案的一种有效工具。
在这里插入图片描述

简介

  • Chrome提供以下能力:

    1. 存储嵌入类型数据(embeddings)和其元数据
    2. 嵌入(embed)文档和查询
    3. 对嵌入类型的检索
  • Chrome 的原则:

    1. 对用户的简单性,并保障开发效率
    2. 同时拥有较好的性能
  • Chroma 作为服务器运行,同时提供客户端的SDK(支持Java, Go,Python, Rust等多种语言)。

安装与运行

  1. 首先要确保有安装有Python运行环境
  2. 安装Chroma模块
    pip install chromadb
    
  3. 创建数据库存储目录
    mkdir db_data
    
  4. 运行Chroma服务并指定路径
    chroma run --path db_data
    

如图所示,Chroma服务就成功启动啦!😄
在这里插入图片描述

Chroma作为服务常态化运行

chromadb.service配置文件放在/etc/systemd/system/目录并用命令systemctl start chromadb启动服务即可。
附赠一份配置模板,具体参数按实际情况配置即可。

[Unit]
Description=ChromaDB Service
After=network-online.target[Service]
ExecStart=/root/anachonda3/bin/chroma run --path /chromadb/db_data
User=root
Group=root
Restart=always
RestartSec=3
export CHROMA_SERVER_HOST=127.0.0.1
Environment=CHROMA_SERVER_HTTP_PORT=8881
ANONYMIZED_TELEMETRY=False
[Install]
WantedBy=default.target

Python客户端使用指南

  1. 导入模块并创建数据库连接
    import chromadb
    chroma_client = chromadb.Client()
    # chroma_client = chromadb.HttpClient(host='localhost', port=8000)
    
  2. 创建数据库集合(collection)
    collection = chroma_client.create_collection(name="my_collection")
    #chroma_client = chromadb.PersistentClient(path="/path/to/save/to") # 设置持久化路径
    因为Chroma 在 url 中使用集合名称,因此命名有一些限制:
    • 名称的长度必须介于 3 到 63 个字符之间。
    • 名称必须以小写字母或数字开头和结尾,并且中间可以包含点、破折号和下划线。
    • 名称不得包含两个连续的点。
    • 名称不得是有效的 IP 地址。
  • 集合的一些便捷方法
# 返回集合中前10项的一个列表
collection.peek() 
# 返回集合中的项目个数
collection.count()
# 重命名集合
collection.modify(name="new_name") 
  1. 添加文档(documents)到集合(collection)中
    collection.add(
    embeddings=[[1.2, 2.3, 4.5], [6.7, 8.2, 9.2]],
    documents=["This is a document", "This is another document"],
    metadatas=[{"source": "my_source"}, {"source": "my_source"}],
    ids=["id1", "id2"]
    )
    
  2. 查询文档 n 个最相近的结果
    results = collection.query(
    query_texts=["This is a query document"],
    n_results=2
    )
    
  3. 便捷方法
    chroma_client.heartbeat() # 纳秒级心跳,确保与服务端连接状态
    chroma_client.reset() # 重置数据库,清除已有信息
    
查询集合

使用.query方法查询集合

collection.query(query_embeddings=[[11.1, 12.1, 13.1],[1.1, 2.3, 3.2], ...],n_results=10,where={"metadata_field": "is_equal_to_this"},where_document={"$contains":"search_string"}
)
更新集合数据

使用.update方法更新集合

collection.update(ids=["id1", "id2", "id3", ...],embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],documents=["doc1", "doc2", "doc3", ...],
)

使用upsert更新数据,若不存在则新增。

collection.upsert(ids=["id1", "id2", "id3", ...],embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],documents=["doc1", "doc2", "doc3", ...],
)
从集合中删除数据

使用delete方法删除数据

collection.delete(ids=["id1", "id2", "id3",...],where={"chapter": "20"}
)

总结

通过这次学习,了解到了使用ChromeDB的基本方法,真是太好啦。
c8e919a83f19aa615d0a24cb1e752a449561.gif


欢迎关注 公-众-号【编程之舞】,获取更多技术资源。
在这里插入图片描述

这篇关于AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1003688

相关文章

centos7基于keepalived+nginx部署k8s1.26.0高可用集群

《centos7基于keepalived+nginx部署k8s1.26.0高可用集群》Kubernetes是一个开源的容器编排平台,用于自动化地部署、扩展和管理容器化应用程序,在生产环境中,为了确保集... 目录一、初始化(所有节点都执行)二、安装containerd(所有节点都执行)三、安装docker-

在Ubuntu上部署SpringBoot应用的操作步骤

《在Ubuntu上部署SpringBoot应用的操作步骤》随着云计算和容器化技术的普及,Linux服务器已成为部署Web应用程序的主流平台之一,Java作为一种跨平台的编程语言,具有广泛的应用场景,本... 目录一、部署准备二、安装 Java 环境1. 安装 JDK2. 验证 Java 安装三、安装 mys

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

C#实现文件读写到SQLite数据库

《C#实现文件读写到SQLite数据库》这篇文章主要为大家详细介绍了使用C#将文件读写到SQLite数据库的几种方法,文中的示例代码讲解详细,感兴趣的小伙伴可以参考一下... 目录1. 使用 BLOB 存储文件2. 存储文件路径3. 分块存储文件《文件读写到SQLite数据库China编程的方法》博客中,介绍了文

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

React实现原生APP切换效果

《React实现原生APP切换效果》最近需要使用Hybrid的方式开发一个APP,交互和原生APP相似并且需要IM通信,本文给大家介绍了使用React实现原生APP切换效果,文中通过代码示例讲解的非常... 目录背景需求概览技术栈实现步骤根据 react-router-dom 文档配置好路由添加过渡动画使用

Android数据库Room的实际使用过程总结

《Android数据库Room的实际使用过程总结》这篇文章主要给大家介绍了关于Android数据库Room的实际使用过程,详细介绍了如何创建实体类、数据访问对象(DAO)和数据库抽象类,需要的朋友可以... 目录前言一、Room的基本使用1.项目配置2.创建实体类(Entity)3.创建数据访问对象(DAO

SQL Server数据库磁盘满了的解决办法

《SQLServer数据库磁盘满了的解决办法》系统再正常运行,我还在操作中,突然发现接口报错,后续所有接口都报错了,一查日志发现说是数据库磁盘满了,所以本文记录了SQLServer数据库磁盘满了的解... 目录问题解决方法删除数据库日志设置数据库日志大小问题今http://www.chinasem.cn天发

Jenkins中自动化部署Spring Boot项目的全过程

《Jenkins中自动化部署SpringBoot项目的全过程》:本文主要介绍如何使用Jenkins从Git仓库拉取SpringBoot项目并进行自动化部署,通过配置Jenkins任务,实现项目的... 目录准备工作启动 Jenkins配置 Jenkins创建及配置任务源码管理构建触发器构建构建后操作构建任务