我的第2个AI项目-RAG with Gemma hosted on HuggingFace and Weaviate in DSPy

2024-09-07 14:36

本文主要是介绍我的第2个AI项目-RAG with Gemma hosted on HuggingFace and Weaviate in DSPy,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 项目简介
    • 概述
    • 时间
    • kaggle地址
    • 主要工作和收获
    • 技术栈
    • 数据集
    • 模型表现
  • 未来项目说明
    • 思路和原则
    • 为什么不把现在的项目做深一点?
    • 博客风格转变
  • bug修复
    • 版本兼容问题

项目简介

概述

本项目简要介绍了如何使用 DSPy 构建一个简单的 RAG 管道,且利用了托管在 Hugging Face 上的 Gemma LLM模型 和 Weaviate 向量数据库。

时间

2024.09.06-2024.09.07

kaggle地址

RAG with Gemma hosted on HuggingFace and Weaviate in DSPy

主要工作和收获

  • 用 Weaviate 向量数据库来构建检索模型从而增强生成。
  • 使用 DSPy 构建一个简单的 RAG 管道来增强生成。
  • 使用少样本学习(Few-Shot Learning)来优化 RAG 模型 的问答生成能力。
  • 掌握了如何使用 Hugging Face 上的LLM模型,比如 Gemma。
  • 修复了一个版本兼容bug。

技术栈

  • RAG,DSPy,Weaviate,Hugging Face,Gemma,Few-Shot Learning

数据集

meta-kaggle

模型表现

问题:Which Kaggle competition should I look at to learn more about recommender systems in e-commerce?
答案(生成):

  • 未使用RAG的生成
    答案较长,就不贴了,可以查看kaggle代码日志。结论是 Gemma 无法在没有额外上下文的情况下回答示例查询。
  • 使用未优化的RAG的生成

The [1] competition is a good place to start learning about recommender systems in e-commerce. By analyzing the data provided in the competition, we can gain a better understanding of how to build a

效果不太理想

  • 使用少样本学习优化的RAG的生成

You might be interested in the JPX Tokyo Stock Exchange Prediction or Jane Street Market Prediction or Ubiquant Market Prediction competition.

达到了预期效果,和少样本学习的例子格式完全一致。


未来项目说明

思路和原则

小步快跑,先广泛再深入

这是我接下来做项目的思路和原则,通过每几天就快速完成一个小项目(打小怪)来实现下面几个目标:
1.把nlp领域的所有常见任务都做一遍,了解每个任务的基本流程。
2.把nlp领域的所有常用技术都用一遍,掌握基本原理和使用方法。

先广泛掌握所有技术的基本使用以及适用的任务类型,再对这些技术进行对比和刷选,把那些最前沿且最好用的技术组合在一起,去挑战更大更难的项目,并不断深入技术和理论前沿。

为什么不把现在的项目做深一点?

杀鸡焉用牛刀

因为我现在还处于技术学习和探索的初步阶段,学到的一些技术、框架、模型可能已经过时了,我现在做的一些任务可能也是过时的任务。我不想在这些可能已经过时的技术和任务上面浪费太多的时间,我希望尽快掌握业界最全面且最前沿的技术,并用这些技术去完成、挑战和研究最前沿的任务和问题。

博客风格转变

力求简约美

另外,我前几篇技术博客写的有点臃肿了,后面我会力求简洁精炼,追求一种简约美,像这篇博客一样。


bug修复

版本兼容问题

原作者在安装这三个包的时候,日志里面报了两处错误,应该是版本兼容问题,不过不影响后面程序的继续运行。我在这里也报了两处错误,但是错误信息有点不同,先不管。

!pip install -U transformers
!pip install dspy-ai
!pip install weaviate-client

但是我在运行到下面代码的时候,又报错了,而且程序停止了运行,出错地方:

import dspy

报错信息:

AttributeError: module 'google._upb._message' has no attribute 'MessageMapContainer'

我上网查了一下,AttributeError: module ‘google._upb._message’ has no attribute ‘MessageMapContainer’ #1908
从这里查到问题原因还是版本兼容问题,文章建议的解决方法是:

pip install proto-plus==1.24.0.dev1

我按照这个方法试了一下,在后面的另一个地方报了另外一个错误,我又查了一下发现还是版本兼容问题。所以我想到问题应该出在最开始安装的三个库那里,因为这三个库我没有指定版本安装,所以安装的是最新版本,可能与作者的版本不同,从而产生了冲突。

解决方案是:指定版本号,保持和原作者当时的版本一致。版本号是我从原作者的打印日志里面找到的。修改后代码如下:

!pip install transformers==4.38.1
!pip install dspy-ai==2.3.3
!pip install weaviate-client==4.5.0

再次运行发现,作者在这里的两处报错信息被我修复了,不再报错了!
不过又出现了新的报错,而且导致了程序停止运行,报错位置:

if client.schema.exists("MyExampleIndex"):

报错信息如下:

AttributeError: 'Schema' object has no attribute 'exists'

我查了一下,原来是因为 weaviate-client 库从 4.x 版本开始对一些方法进行了修改,包括删除了 client.schema.exists 方法。

解决方案是:改用最接近 4.5.0 版本的 3.x 版本,即 3.26.0

修改后的代码如下:

!pip install weaviate-client==3.26.0

再次运行,终于全部跑通了!而且没有任何错误提示了,包括原作者日志里的两处错误提示也没有了。

这篇关于我的第2个AI项目-RAG with Gemma hosted on HuggingFace and Weaviate in DSPy的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1145334

相关文章

一文教你如何将maven项目转成web项目

《一文教你如何将maven项目转成web项目》在软件开发过程中,有时我们需要将一个普通的Maven项目转换为Web项目,以便能够部署到Web容器中运行,本文将详细介绍如何通过简单的步骤完成这一转换过程... 目录准备工作步骤一:修改​​pom.XML​​1.1 添加​​packaging​​标签1.2 添加

tomcat多实例部署的项目实践

《tomcat多实例部署的项目实践》Tomcat多实例是指在一台设备上运行多个Tomcat服务,这些Tomcat相互独立,本文主要介绍了tomcat多实例部署的项目实践,具有一定的参考价值,感兴趣的可... 目录1.创建项目目录,测试文China编程件2js.创建实例的安装目录3.准备实例的配置文件4.编辑实例的

基于Flask框架添加多个AI模型的API并进行交互

《基于Flask框架添加多个AI模型的API并进行交互》:本文主要介绍如何基于Flask框架开发AI模型API管理系统,允许用户添加、删除不同AI模型的API密钥,感兴趣的可以了解下... 目录1. 概述2. 后端代码说明2.1 依赖库导入2.2 应用初始化2.3 API 存储字典2.4 路由函数2.5 应

springboot集成Deepseek4j的项目实践

《springboot集成Deepseek4j的项目实践》本文主要介绍了springboot集成Deepseek4j的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录Deepseek4j快速开始Maven 依js赖基础配置基础使用示例1. 流式返回示例2. 进阶

SpringBoot项目启动报错"找不到或无法加载主类"的解决方法

《SpringBoot项目启动报错找不到或无法加载主类的解决方法》在使用IntelliJIDEA开发基于SpringBoot框架的Java程序时,可能会出现找不到或无法加载主类com.example.... 目录一、问题描述二、排查过程三、解决方案一、问题描述在使用 IntelliJ IDEA 开发基于

SpringBoot项目使用MDC给日志增加唯一标识的实现步骤

《SpringBoot项目使用MDC给日志增加唯一标识的实现步骤》本文介绍了如何在SpringBoot项目中使用MDC(MappedDiagnosticContext)为日志增加唯一标识,以便于日... 目录【Java】SpringBoot项目使用MDC给日志增加唯一标识,方便日志追踪1.日志效果2.实现步

Spring AI ectorStore的使用流程

《SpringAIectorStore的使用流程》SpringAI中的VectorStore是一种用于存储和检索高维向量数据的数据库或存储解决方案,它在AI应用中发挥着至关重要的作用,本文给大家介... 目录一、VectorStore的基本概念二、VectorStore的核心接口三、VectorStore的

Ubuntu中Nginx虚拟主机设置的项目实践

《Ubuntu中Nginx虚拟主机设置的项目实践》通过配置虚拟主机,可以在同一台服务器上运行多个独立的网站,本文主要介绍了Ubuntu中Nginx虚拟主机设置的项目实践,具有一定的参考价值,感兴趣的可... 目录简介安装 Nginx创建虚拟主机1. 创建网站目录2. 创建默认索引文件3. 配置 Nginx4

SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法

《SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法》本文主要介绍了SpringBoot项目启动错误:找不到或无法加载主类的几种解决方法,具有一定的参考价值,感兴趣的可以了解一下... 目录方法1:更改IDE配置方法2:在Eclipse中清理项目方法3:使用Maven命令行在开发Sprin

Nginx实现高并发的项目实践

《Nginx实现高并发的项目实践》本文主要介绍了Nginx实现高并发的项目实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录使用最新稳定版本的Nginx合理配置工作进程(workers)配置工作进程连接数(worker_co