【RAG 博客】Small-to-Big Retrieval

2024-05-09 02:28

文章标签 博客 small big retrieval rag

本文主要是介绍【RAG 博客】Small-to-Big Retrieval，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Blog：Advanced RAG 01: Small-to-Big Retrieval
⭐⭐⭐⭐
Code：https://colab.research.google.com/github/sophiamyang/demos/blob/main/advanced_rag_small_to_big.ipynb

Small-to-Big Retrieval 技术试图解决这样一个矛盾：更大的 chunk 可以包含更多有用的信息，但其包含的较多无用文本又会掩盖 semantic representation 从而导致检索效果的变差。

这篇 blog 提出的思路是：基于更小、更有针对性的 text chunk 进行 embedding 和 retrieval，但仍然使用较大的 text chunk 来为 LLM 提供更多的上下文信息。也就是在检索过程中使用较小的 text chunk，然后将检索到的文本的对应的更大的 text chunk 给 LLM。

其具体实现思路有两种：

较小的 child chunk 指向更大的一个 parent chunk：在检索时先获取到较小的 child chunk，然后返回较大的 parent chunk。
Sentence Window Retrieval：在检索过程中仅获取一个句子，并返回这个句子周围的一段文本。

之后，blog 使用了 LlamaIndex 来实现了这两种方法，具体可以参考原 blog。

这篇关于【RAG 博客】Small-to-Big Retrieval的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/972123。 23002807@qq.com

相关文章

Retrieval-based-Voice-Conversion-WebUI模型构建指南

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI（简称 RVC）模型是一个基于 VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）的简单易用的语音转换框架。具有以下特点简单易用：RVC 模型通过简单易用的网页界面，使得用户无需深入了

阅读更多...

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed

DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed 文章目录 DBeaver 连接 MySQL 报错 Public Key Retrieval is not allowed问题解决办法问题使用 DBeaver 连接 MySQL 数据库的时候，一直报错下面的错误 Public Key Retrieval is

阅读更多...

INDEX+SMALL+IF+ROW函数组合使用解…

INDEX+SMALL+IF+ROW函数组合使用解…

很多人在Excel中用函数公式做查询的时候，都必然会遇到的一个大问题，那就是一对多的查找/查询公式应该怎么写？大多数人都是从VLOOKUP、INDEX+MATCH中入门的，纵然你把全部的多条件查找方法都学会了而且运用娴熟，如VLOOKUP和&、SUMPRODUCT、LOOKUP(1,0/....，但仍然只能对这种一对多的查询望洋兴叹。这里讲的INDEX+SMALL+IF+ROW的函数组合，

阅读更多...

搜狗浏览器打开CSDN博客排版错乱问题解决

搜狗浏览器打开CSDN博客排版错乱问题解决

之前发生过几次，不知道什么原因。今天一直用着好好的，打开一个csdn连接，显示404，博文被删除了，于是就用百度快照打开试试，百度快照打开显示的排版很乱也没找到有用信息。后面再浏览CSDN博客就排版错乱，显示一个大大二维码图片。尝试删除IE缓存无效，使用谷歌浏览是好的。基本锁定就是搜狗缓存导致的，于是找如何删除搜狗缓存清除后恢复正常

阅读更多...

828华为云征文｜基于华为云Flexus云服务器X实例部搭建Halo博客平台

828华为云征文｜基于华为云Flexus云服务器X实例部搭建Halo博客平台

华为云征文｜基于华为云Flexus云服务器X实例部搭建Halo博客平台前言一、Flexus云服务器X实例介绍1.1 Flexus云服务器X实例简介1.2 Flexus云服务器X实例特点1.3 Flexus云服务器X实例使用场景二、Halo介绍2.1 Halo 简介2.2 Halo 特点三、本次实践介绍3.1 本次实践简介3.2 本次环境规划四、购买华为云Flexus云服务器X实例4.

阅读更多...

缓存的常见问题以及解决博客文章

缓存的常见问题以及解决博客文章

1.jedispool 连 redis 高并发卡死（子非鱼yy） https://blog.csdn.net/ztx114/article/details/78291734 2. Redis安装及主从配置 https://blog.csdn.net/ztx114/article/details/78320193 3.Spring中使用RedisTemplate操作Redis（sprin

阅读更多...

[置顶] IT牛人博客

[置顶] IT牛人博客

团队技术博客淘宝UED淘宝用户体验团队淘宝核心系统淘宝核心系统团队博客阿里巴巴数据库团队专注数据库管理开发运维淘宝通用产品专注JAVA技术淘宝QA致力于做测试的行业标准淘宝搜索技术关注技术关注搜索量子恒道专注大数据统计百度搜索研发关注搜索相关技术EMC中国研究院关注于云计算和大数据贰号楼肆层阿里巴巴平台技术部阿里数据平台阿里巴巴数据平台百度技术分享交流百度的互联网技术编码者说腾讯滴技术团队腾

阅读更多...

为什么你应该从现在开始就写博客---刘未鹏

为什么你应该从现在开始就写博客---刘未鹏

（一）为什么你应该（从现在开始就）写博客用一句话来说就是，写一个博客有很多好处，却没有任何明显的坏处。（阿灵顿的情况属于例外，而非常态，就像不能拿抽烟活到一百岁的英国老太太的个例来反驳抽烟对健康的极大损伤一样）让我说得更明确一点：用博客的形式来记录下你有价值的思考，会带来很多好处，却没有任何明显的坏处。Note：碎碎念不算思考、心情琐记不算思考、唠唠叨叨也不算思考、没话找话也不算思考

阅读更多...

我的第2个AI项目-RAG with Gemma hosted on HuggingFace and Weaviate in DSPy

我的第2个AI项目-RAG with Gemma hosted on HuggingFace and Weaviate in DSPy

目录项目简介概述时间kaggle地址主要工作和收获技术栈数据集模型表现未来项目说明思路和原则为什么不把现在的项目做深一点？博客风格转变 bug修复版本兼容问题项目简介概述本项目简要介绍了如何使用 DSPy 构建一个简单的 RAG 管道，且利用了托管在 Hugging Face 上的 Gemma LLM模型和 Weaviate 向量数据库。时间 2024.09

阅读更多...

游戏开发者有必要写博客的6大原因

游戏开发者有必要写博客的6大原因

为什么你要写博客？在本文中我将分析为何写博客在游戏产业中如此有效的 6 大原因。假设你是资深的游戏开发者、制作、发行商、二年级学生、测试者、设计师、程序员、美术师或者编曲者。你的爱好伴随着许多的技艺。每个人完成一款游戏的过程，方法都不同，这里也充满许多值得我们学习的有趣瞬间。当然你可以继续坚守自己的看法。但我还是看到了许多低调的开发者们在挣扎着。 1. 贡献我的观点中最重要的一方面便是你

阅读更多...