使用 LlamaIndex 部署本地 Mistral-7b 大模型实现 RAG

2024-01-24 23:36

本文主要是介绍使用 LlamaIndex 部署本地 Mistral-7b 大模型实现 RAG,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原理

LlamaIndex的文档链接:Using LLMs - LlamaIndex 🦙 0.9.33

LlamaIndex 的一般使用模式如下:

  1. 加载文档(手动或通过数据加载器)
  2. 将文档解析为节点
  3. 构建索引(来自节点或文档)
  4. (可选,高级)在其他索引之上构建索引
  5. 查询索引

默认情况下,LlamaIndex 使用 OpenAI 的text-davinci-003模型,然而由于 OpenAI 的网站在国内无法访问,故使用本地下载好的 🐋 Mistral-7B-OpenOrca 🐋 模型代替之。
模型的链接如下:
Open-Orca/Mistral-7B-OpenOrca · Hugging Face

示例

HuggingFaceLLM 的参数如下:

HuggingFaceLLM - LlamaIndex 🦙 0.9.33

generate_kwargs 就是在生成时传递给模型的参数,具体可以看:

Generation 说明

首先准备一段文字,任意内容皆可,我准备的是关于【科学指南针】服务机构的介绍,摘自下面的网站:

科学指南针科研推出论文阅读,管理神器,强大AI赋能,轻松科研_服务_工作台_用户

科学指南针,一家始终致力于为科研工作者提供专业、快捷、全方位的检测及科研服务的大型科研服务机构,近日重磅推出全新产品「科研工作台」——一款集论文阅读、管理、分析于一体的AI赋能神器。这款产品的推出,将AI技术与科研工作深度融合,为科研工作者提供前所未有的便利。
「科研工作台」不仅具备自动解读论文研究目的、主要内容、实验过程等强大功能,还支持一键定位原文精读。更重要的是,它配备的AI阅读助手可以基于论文内容,快速回答用户提出的任何问题,帮助科研人员快速获取所需信息。这一创新性的设计,无疑将极大地提升科研工作的效率。
此外,「科研工作台」还支持分组/标签双体系管理文献。用户可以根据自己的需求,自定义建立分组和子分组进行文献管理。同时,系统会自动根据关键信息为文献打标签,并允许用户自定义新增或删除标签。通过这一功能,用户可以快速筛选出自己需要的文献。
自2014年成立以来,科学指南针始终以全心全意服务科研,助力全球科技创新为使命。经过数年的努力,公司已建立起包括材料测试、环境检测、生物服务、行业解决方案、科研绘图、模拟计算、数据分析、论文服务、试剂耗材、指南针学院等在内的科研产品和服务矩阵。如今,「科研工作台」的推出,再次证明了科学指南针在推动创新方面的能力。
值得一提的是,科学指南针的生物实验室已经取得了实验动物许可证,环境实验室和南京材料实验室先后获得了中国计量认证证书(CMA)。此外,南京材料实验室还获得了ISO三体系认证。这些资质和认证,不仅证明了科学指南针在科研服务领域的专业性和可靠性,也为其未来的发展奠定了坚实的基础。
展望未来,科学指南针的愿景是成为世界级科研服务机构。他们坚信,只要有科研的地方,就应有科学指南针的存在。而「科研工作台」的推出,正是实现这一愿景的重要一步。这款产品将为全球科研工作者提供更为便捷、高效的服务,助力科研事业的发展。
在新的历史起点上,科学指南针将继续秉承全心全意服务科研的使命,不断创新、追求卓越。我们期待着他们在未来的发展中,继续为全球科技创新做出更大的贡献

代码如下,这里使用了 HuggingFaceLLM 包来加载本地的 LLM。使用 load_in_4bit 对模型进行量化。
embed_model 选用了 “local:BAAI/bge-large-zh-v1.5”

from llama_index import VectorStoreIndex, SimpleDirectoryReader
from llama_index import ServiceContext
from llama_index.llms import HuggingFaceLLM
import torch
from transformers import BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer
from llama_index.prompts import PromptTemplate
from llama_index import set_global_service_contextquantization_config = BitsAndBytesConfig(load_in_4bit=True,bnb_4bit_compute_dtype=torch.float16,bnb_4bit_quant_type="nf4",bnb_4bit_use_double_quant=True,
)model_name = "/root/autodl-tmp/kdy/models/Mistral-7B-OpenOrca"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
question = [{"role": "user", "content": "{query_str}"},
]
llm = HuggingFaceLLM(  model=model,tokenizer=tokenizer,query_wrapper_prompt=PromptTemplate(tokenizer.apply_chat_template(question, tokenize=False)),context_window=3900,max_new_tokens=500,model_kwargs={"quantization_config": quantization_config},generate_kwargs={"temperature": 0.2, "top_k": 5, "do_sample": True, "top_p": 0.95},device_map="auto",
)
service_context = ServiceContext.from_defaults(llm=llm, embed_model="local:BAAI/bge-large-zh-v1.5")
set_global_service_context(service_context)documents = SimpleDirectoryReader("/root/autodl-tmp/kdy/RAG/data").load_data()
index = VectorStoreIndex.from_documents(documents)
index.storage_context.persist(persist_dir="./storage")query_engine = index.as_query_engine(streaming=True, similarity_top_k=3)
response_stream = query_engine.query("科学指南针提供哪些服务?")
response_stream.print_response_stream()
print()

其中documents = SimpleDirectoryReader("/root/autodl-tmp/kdy/RAG/data").load_data() 中的 data 文件夹下存放自己提供的内容。

输出如下:
在这里插入图片描述

response_stream.print_response_stream() 方法会将答案逐字输出,如下面的 GIF 所示。
在这里插入图片描述

参考文献:

Using LLMs - LlamaIndex 🦙 0.9.33

Google Colaboratory

这篇关于使用 LlamaIndex 部署本地 Mistral-7b 大模型实现 RAG的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/641386

相关文章

Python如何实现PDF隐私信息检测

《Python如何实现PDF隐私信息检测》随着越来越多的个人信息以电子形式存储和传输,确保这些信息的安全至关重要,本文将介绍如何使用Python检测PDF文件中的隐私信息,需要的可以参考下... 目录项目背景技术栈代码解析功能说明运行结php果在当今,数据隐私保护变得尤为重要。随着越来越多的个人信息以电子形

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

使用Python快速实现链接转word文档

《使用Python快速实现链接转word文档》这篇文章主要为大家详细介绍了如何使用Python快速实现链接转word文档功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 演示代码展示from newspaper import Articlefrom docx import

oracle DBMS_SQL.PARSE的使用方法和示例

《oracleDBMS_SQL.PARSE的使用方法和示例》DBMS_SQL是Oracle数据库中的一个强大包,用于动态构建和执行SQL语句,DBMS_SQL.PARSE过程解析SQL语句或PL/S... 目录语法示例注意事项DBMS_SQL 是 oracle 数据库中的一个强大包,它允许动态地构建和执行

前端原生js实现拖拽排课效果实例

《前端原生js实现拖拽排课效果实例》:本文主要介绍如何实现一个简单的课程表拖拽功能,通过HTML、CSS和JavaScript的配合,我们实现了课程项的拖拽、放置和显示功能,文中通过实例代码介绍的... 目录1. 效果展示2. 效果分析2.1 关键点2.2 实现方法3. 代码实现3.1 html部分3.2

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型的操作流程

《0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeekR1模型的操作流程》DeepSeekR1模型凭借其强大的自然语言处理能力,在未来具有广阔的应用前景,有望在多个领域发... 目录0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型,3步搞定一个应

redis群集简单部署过程

《redis群集简单部署过程》文章介绍了Redis,一个高性能的键值存储系统,其支持多种数据结构和命令,它还讨论了Redis的服务器端架构、数据存储和获取、协议和命令、高可用性方案、缓存机制以及监控和... 目录Redis介绍1. 基本概念2. 服务器端3. 存储和获取数据4. 协议和命令5. 高可用性6.

SpringBoot中使用 ThreadLocal 进行多线程上下文管理及注意事项小结

《SpringBoot中使用ThreadLocal进行多线程上下文管理及注意事项小结》本文详细介绍了ThreadLocal的原理、使用场景和示例代码,并在SpringBoot中使用ThreadLo... 目录前言技术积累1.什么是 ThreadLocal2. ThreadLocal 的原理2.1 线程隔离2

Python itertools中accumulate函数用法及使用运用详细讲解

《Pythonitertools中accumulate函数用法及使用运用详细讲解》:本文主要介绍Python的itertools库中的accumulate函数,该函数可以计算累积和或通过指定函数... 目录1.1前言:1.2定义:1.3衍生用法:1.3Leetcode的实际运用:总结 1.1前言:本文将详

Deepseek R1模型本地化部署+API接口调用详细教程(释放AI生产力)

《DeepseekR1模型本地化部署+API接口调用详细教程(释放AI生产力)》本文介绍了本地部署DeepSeekR1模型和通过API调用将其集成到VSCode中的过程,作者详细步骤展示了如何下载和... 目录前言一、deepseek R1模型与chatGPT o1系列模型对比二、本地部署步骤1.安装oll