【IR 论文】HyDE:让 LLM 对 query 做查询改写来改进 Dense Retrieval

2024-04-30 21:12

本文主要是介绍【IR 论文】HyDE:让 LLM 对 query 做查询改写来改进 Dense Retrieval,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文:Precise Zero-Shot Dense Retrieval without Relevance Labels
⭐⭐⭐⭐
CMU, ACL 2023, arXiv:2212.10496
Code: github.com/texttron/hyde

文章目录

    • 论文速读
    • 总结

论文速读

在以往的 dense retrieval 思路中,需要对 input query 做 encode 来得到 vector,并于 passages 的 vector 做相似度计算实现检索。这里面的 dense encoder 需要把有相关性的 query 和 docs 映射到相近的位置,这就存在两个缺点:

  • dense encoder 需要大量的数据去 learn
  • Hard to generalize when definition of relevance changes

但在现实世界中:

  • 可以用于 train 的具有相关性关联的 data 并不多
  • 检索的需求是多种多样的:
    • 不同的企业或机构有不同的需求
    • 用户的需求也在随着时间发生改变

这就导致了以往的 dense retrieval 的思路并不好用。


本文提出的 HyDE思路如下

HyDE 框架中,没有训练或微调任何 LLM

  1. 给定一个 user query,通过 LLM 的 instruction-following 的能力,让 LLM 先生成一个对于这个 query 的杜撰的 document:“Hypothetical Document
  2. 使用一个 dense encoder 将这个 Hypothetical Document 编码为 vector:“Hypothetical Document Embedding
  3. 在 document embedding space 中进行检索

其中,denser encoder 可以是一个非常 weak 的模型,仅仅通过无监督的对比学习就可以完成训练。

HyDE 的特点是,不再需要做 query - document 的 mapping,而是让 LLM 先生成一个伪文档,然后通过这个伪文档来完成检索。从而弥补了 input query 与 corpus 之间的 gap。

HyDE 的整体示例如下图所示:
HyDE 框架

总结

HyDE 提供了一种以完全无监督的方式来构建有效的 dense retriever 的新思路,他的训练不需要任何相关联的 query-doc pair 作为训练资料。

论文指出,HyDE 主要用于搜索系统的部署前期,这时候缺少可用的训练素材,HyDE 可以提供与微调模型相当的表现。随着搜索系统的使用,搜索日志和相关性数据逐渐积累, 就可以逐步训练并推出有监督的 dense retriever 来提供其 in-domain 的专业能力。

这篇关于【IR 论文】HyDE:让 LLM 对 query 做查询改写来改进 Dense Retrieval的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/949924

相关文章

SQL 中多表查询的常见连接方式详解

《SQL中多表查询的常见连接方式详解》本文介绍SQL中多表查询的常见连接方式,包括内连接(INNERJOIN)、左连接(LEFTJOIN)、右连接(RIGHTJOIN)、全外连接(FULLOUTER... 目录一、连接类型图表(ASCII 形式)二、前置代码(创建示例表)三、连接方式代码示例1. 内连接(I

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

查询SQL Server数据库服务器IP地址的多种有效方法

《查询SQLServer数据库服务器IP地址的多种有效方法》作为数据库管理员或开发人员,了解如何查询SQLServer数据库服务器的IP地址是一项重要技能,本文将介绍几种简单而有效的方法,帮助你轻松... 目录使用T-SQL查询方法1:使用系统函数方法2:使用系统视图使用SQL Server Configu

MYSQL关联关系查询方式

《MYSQL关联关系查询方式》文章详细介绍了MySQL中如何使用内连接和左外连接进行表的关联查询,并展示了如何选择列和使用别名,文章还提供了一些关于查询优化的建议,并鼓励读者参考和支持脚本之家... 目录mysql关联关系查询关联关系查询这个查询做了以下几件事MySQL自关联查询总结MYSQL关联关系查询

Java实现Elasticsearch查询当前索引全部数据的完整代码

《Java实现Elasticsearch查询当前索引全部数据的完整代码》:本文主要介绍如何在Java中实现查询Elasticsearch索引中指定条件下的全部数据,通过设置滚动查询参数(scrol... 目录需求背景通常情况Java 实现查询 Elasticsearch 全部数据写在最后需求背景通常情况下

查询Oracle数据库表是否被锁的实现方式

《查询Oracle数据库表是否被锁的实现方式》本文介绍了查询Oracle数据库表是否被锁的方法,包括查询锁表的会话、人员信息,根据object_id查询表名,以及根据会话ID查询和停止本地进程,同时,... 目录查询oracle数据库表是否被锁1、查询锁表的会话、人员等信息2、根据 object_id查询被

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

数据库oracle用户密码过期查询及解决方案

《数据库oracle用户密码过期查询及解决方案》:本文主要介绍如何处理ORACLE数据库用户密码过期和修改密码期限的问题,包括创建用户、赋予权限、修改密码、解锁用户和设置密码期限,文中通过代码介绍... 目录前言一、创建用户、赋予权限、修改密码、解锁用户和设置期限二、查询用户密码期限和过期后的修改1.查询用

使用SQL语言查询多个Excel表格的操作方法

《使用SQL语言查询多个Excel表格的操作方法》本文介绍了如何使用SQL语言查询多个Excel表格,通过将所有Excel表格放入一个.xlsx文件中,并使用pandas和pandasql库进行读取和... 目录如何用SQL语言查询多个Excel表格如何使用sql查询excel内容1. 简介2. 实现思路3

MySQL不使用子查询的原因及优化案例

《MySQL不使用子查询的原因及优化案例》对于mysql,不推荐使用子查询,效率太差,执行子查询时,MYSQL需要创建临时表,查询完毕后再删除这些临时表,所以,子查询的速度会受到一定的影响,本文给大家... 目录不推荐使用子查询和JOIN的原因解决方案优化案例案例1:查询所有有库存的商品信息案例2:使用EX