AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南

本文主要是介绍AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在人工智能大模型领域，离不开NLP技术，在NLP中词向量是一种基本元素，如何存储这些元素呢？可以使用向量数据库ChromeDB
5637557320fbfb3292307735f0b8acd53a791241.png@112w_112h.png

Chroma

Chroma 是 AI 原生开源矢量数据库。Chroma 通过为 LLM 提供知识、事实和技能，使构建 LLM 应用程序变得容易。同时也是实现大模型RAG技术方案的一种有效工具。
在这里插入图片描述

简介

Chrome提供以下能力：
1. 存储嵌入类型数据（embeddings）和其元数据
2. 嵌入（embed）文档和查询
3. 对嵌入类型的检索
Chrome 的原则：
1. 对用户的简单性，并保障开发效率
2. 同时拥有较好的性能
Chroma 作为服务器运行，同时提供客户端的SDK（支持Java, Go，Python, Rust等多种语言）。

安装与运行

首先要确保有安装有Python运行环境
安装Chroma模块
```
pip install chromadb
```
创建数据库存储目录
```
mkdir db_data
```
运行Chroma服务并指定路径
```
chroma run --path db_data
```

如图所示，Chroma服务就成功启动啦！😄
在这里插入图片描述

将`Chroma`作为服务常态化运行

将chromadb.service配置文件放在/etc/systemd/system/目录并用命令systemctl start chromadb启动服务即可。
附赠一份配置模板，具体参数按实际情况配置即可。

[Unit]
Description=ChromaDB Service
After=network-online.target[Service]
ExecStart=/root/anachonda3/bin/chroma run --path /chromadb/db_data
User=root
Group=root
Restart=always
RestartSec=3
export CHROMA_SERVER_HOST=127.0.0.1
Environment=CHROMA_SERVER_HTTP_PORT=8881
ANONYMIZED_TELEMETRY=False
[Install]
WantedBy=default.target

Python客户端使用指南

导入模块并创建数据库连接

import chromadb
chroma_client = chromadb.Client()
# chroma_client = chromadb.HttpClient(host='localhost', port=8000)

创建数据库集合（collection）
```
collection = chroma_client.create_collection(name="my_collection")
#chroma_client = chromadb.PersistentClient(path="/path/to/save/to") # 设置持久化路径
```
因为Chroma 在 url 中使用集合名称，因此命名有一些限制：
- 名称的长度必须介于 3 到 63 个字符之间。
- 名称必须以小写字母或数字开头和结尾，并且中间可以包含点、破折号和下划线。
- 名称不得包含两个连续的点。
- 名称不得是有效的 IP 地址。

集合的一些便捷方法

# 返回集合中前10项的一个列表
collection.peek() 
# 返回集合中的项目个数
collection.count()
# 重命名集合
collection.modify(name="new_name")

添加文档(documents)到集合（collection）中

collection.add(
embeddings=[[1.2, 2.3, 4.5], [6.7, 8.2, 9.2]],
documents=["This is a document", "This is another document"],
metadatas=[{"source": "my_source"}, {"source": "my_source"}],
ids=["id1", "id2"]
)

查询文档 n 个最相近的结果

results = collection.query(
query_texts=["This is a query document"],
n_results=2
)

便捷方法

chroma_client.heartbeat() # 纳秒级心跳，确保与服务端连接状态
chroma_client.reset() # 重置数据库，清除已有信息

查询集合

使用.query方法查询集合

collection.query(query_embeddings=[[11.1, 12.1, 13.1],[1.1, 2.3, 3.2], ...],n_results=10,where={"metadata_field": "is_equal_to_this"},where_document={"$contains":"search_string"}
)

更新集合数据

使用.update方法更新集合

collection.update(ids=["id1", "id2", "id3", ...],embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],documents=["doc1", "doc2", "doc3", ...],
)

使用upsert更新数据，若不存在则新增。

collection.upsert(ids=["id1", "id2", "id3", ...],embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],metadatas=[{"chapter": "3", "verse": "16"}, {"chapter": "3", "verse": "5"}, {"chapter": "29", "verse": "11"}, ...],documents=["doc1", "doc2", "doc3", ...],
)

从集合中删除数据

使用delete方法删除数据

collection.delete(ids=["id1", "id2", "id3",...],where={"chapter": "20"}
)

总结

通过这次学习，了解到了使用ChromeDB的基本方法，真是太好啦。

欢迎关注公-众-号【编程之舞】,获取更多技术资源。
在这里插入图片描述

这篇关于AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

原文地址:
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.chinasem.cn/article/1003688。如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！我们的邮箱：23002807@qq.com

AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南

Chroma

简介

安装与运行

将`Chroma`作为服务常态化运行

Python客户端使用指南

查询集合

更新集合数据

从集合中删除数据

总结

相关文章

数据库面试必备之MySQL中的乐观锁与悲观锁

Node.js 数据库 CRUD 项目示例详解(完美解决方案)

Spring Boot项目部署命令java -jar的各种参数及作用详解

Spring Security基于数据库的ABAC属性权限模型实战开发教程

Ubuntu中远程连接Mysql数据库的详细图文教程

Oracle数据库常见字段类型大全以及超详细解析

Win11安装PostgreSQL数据库的两种方式详细步骤

SpringBoot实现数据库读写分离的3种方法小结

Python Websockets库的使用指南

Kotlin 作用域函数apply、let、run、with、also使用指南

AI原生嵌入式矢量模型数据库ChromaDB-部署与使用指南

Chroma

简介

安装与运行

将Chroma作为服务常态化运行

Python客户端使用指南

查询集合

更新集合数据

从集合中删除数据

总结

相关文章

将`Chroma`作为服务常态化运行