Augmented SBERT

2023-10-14 12:30
文章标签 augmented sbert

本文主要是介绍Augmented SBERT,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 简介

句子对评分任务(Pairwise sentence scoring tasks)在NLP上有非常广泛的应用,如信息检索、问答、复制问题检测、聚类等。

有两种处理句子对的方法:
(1)cross-encoder,两个句子同时输入到网络模型中,对输入句子对采用全注意力方法,如BERT,其有较好的表现力,却在实际场景中运行效率低、开销大。如在n=10000个句子中找到相似的句子对,BERT要进行n*(n-1)/2=49995000次预测计算,在单个V100 GPU上,需要运行65小时。BERT还有个缺点是其没有独立的Sentence embeddings产生。
(2)Bi-encoder,需要大量的训练数据,以及在目标任务上进行微调来获得较好的表现力。如SBERT。Bi-encoder预测速度快,如上面的任务,使65小时减少到5秒。但通常Bi-encoder的表现力不如cross-encoder

在这里插入图片描述

本文我们提出了一个简单有效的数据增强策略,称为“Augmented SBERT”。我们使用cross-encoder标注很多输入语句对来增强训练数据,以用于Bi-encoder。

本文跟进2021年《Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks》翻译总结。

2 Related work

Sentence embeddings 在最近的文献中研究很广泛。早期的技术包括Skip-thought vectors非监督方法和InferSent、USE监督方法。

DiPair 网络结构与我们的相似,不过其主要关注预测速度,同时进行了表现力与预测速度之间的权衡研究。

而我们的Augmented SBERT主要关注采样技巧,下面会讨论。

3 方法

3.1 Augmented SBERT

采用 cross-encoder弱标注(label)的数据,我们叫做silver dataset,他们会与gold训练数据合并。我们然后在者扩展后的数据上训练 bi-encoder。
在这里插入图片描述

3.2 语句对采样策略

采用cross-encoder弱标注所有可能的句子对组合会导致巨大的开销,甚至可能导致模型表现力下降。所以我们需要合适的采样策略,减少弱标注的句子对,提升模型表现力。
(1) Random Sampling (RS)
(2) Kernel Density Estimation (KDE):目的是保证silver 数据和gold数据的分布保持一致。为此,我们弱标注大量随机的句子对后,但只保留一定的组合。如对于分类任务,只保留positive的句子对;对于回归任务,使用 kernel density estimation (KDE)来估计连续的对于分数s的密度函数Fgold(s) and Fsilver(s)。
在这里插入图片描述

不过,KDE采样策略计算效率不好,需要大量随机的采样。我们后面没有采用该方法。

(3) BM25 Sampling (BM25):采用Okapi BM25算法。我们利用ElasticSearch。对每个句子提取最相似的k个句子。然后这些句子对使用cross-encoder弱标注,并都被当做silver数据使用。该方法运行效率很高。本文推荐此方法。
(4) Semantic Search Sampling (SS):BM25的一个缺点是只能找到词汇重叠的句子,所以同义词,其没有或者只有很少重叠的句子不会被选择。该方法,我们使用cosine-similarity选择最相似的k个语句。也可以采用Faiss。
(5) BM25 + Semantic Search Sampling (BM25- S.S.)

3.3 域适配任务(Domain adaptation)

在这里插入图片描述

4 数据

句子对评分任务主要分为回归任务和分类任务。回归任务是用一个分数类描述输入间的相似性;分类任务是采用不同的标签,如释义的、非释义的。

5 实验结果

在这里插入图片描述
在这里插入图片描述

这篇关于Augmented SBERT的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/210524

相关文章

第三章 少量(无)标记增强现实——Chapter 3:Marker-less Augmented Reality

注释: 1、翻译书名:Mastering OpenCV with Practical Computer Vision Projects 2、翻译章节:Chapter 3:Marker-less Augmented Reality 3、电子书下载,源代码下载,请参考:http://blog.csdn.net/raby_gyl/article/details/11617875 4、本章程序

deeplabv3+使用voc2012 augmented 数据进行训练

在原始的论文中结果使用了augmented数据的,因为改数据不是平移旋转放缩的增加方式,而是将voc2012中未标注的图片进行了标注,不过由于并不是那种很精准的标注,举个例子: 也没有白边,推测是利用边缘检测结合手工。 关于该数据的获取:https://blog.csdn.net/u013249853/article/details/100136780 使用方法简单到不可思议。。。 注

论文翻译:Benchmarking Large Language Models in Retrieval-Augmented Generation

https://ojs.aaai.org/index.php/AAAI/article/view/29728 检索增强型生成中的大型语言模型基准测试 文章目录 检索增强型生成中的大型语言模型基准测试摘要1 引言2 相关工作3 检索增强型生成基准RAG所需能力数据构建评估指标 4实验设置噪声鲁棒性结果负面拒绝测试平台结果信息整合测试平台结果反事实鲁棒性测试平台结果 5 结论 摘要

Retrieval-Augmented Generation for Large Language Models A Survey

Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 文章目录 Retrieval-Augmented Generation for Large Language Models: A Survey 文献综述 Abstract背景介绍 RAG概述原始RAG先进RAG预检索过程后检索过程 模块化RAGMo

Retrieval-Augmented Generation for Large Language Models: A Survey论文阅读

论文:https://arxiv.org/pdf/2312.10997.pdf github:https://github.com/Tongji-KGLLM/ RAG-Survey 简介 大语言模型常常制造虚假事实,在处理特定领域或高度专业化的查询时缺乏知识。例如,当所需信息超出模型训练数据的范围或需要最新数据时,LLM可能无法提供准确的答案。这一限制在将生成型人工智能部署到现实世界的生产

【LLM 论文】背诵增强 LLM:Recitation-Augmented LM

论文:Recitation-Augmented Language Models ⭐⭐⭐ ICLR 2023, Google Research, arXiv:2210.01296 Code:github.com/Edward-Sun/RECITE 文章目录 论文速读 论文速读 论文的整体思路还是挺简单的,就是让 LLM 面对一个 question,首先先背诵(recita

IOS Augmented Reality增强现实学习笔记 -基于位置

地图编程和定位是增强现实技术的基础,因此首先学习Location Services 1标准定位(standard location service)  有两种方式可以监控我们的位置,首先是标准定位。这是一种很普遍的方式,因为所有的ios设备都支持标准定位。首先我们要导入Core Location Framework到我们的工程中,然后把Core Location Framework加入到头文件

RAG (Retrieval Augmented Generation) 结合 LlamaIndex、Elasticsearch 和 Mistral

作者:Srikanth Manvi 在这篇文章中,我们将讨论如何使用 RAG 技术(检索增强生成)和 Elasticsearch 作为向量数据库来实现问答体验。我们将使用 LlamaIndex 和本地运行的 Mistral LLM。 在开始之前,我们将先了解一些术语。 术语解释: LlamaIndex 是一个领先的数据框架,用于构建 LLM(大型语言模型)应用程序。LlamaIndex

CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection

CVPR 2024 - Retrieval-Augmented Open-Vocabulary Object Detection 论文:https://arxiv.org/abs/2404.05687代码:https://github.com/mlvlab/RALF原始文档:https://github.com/lartpang/blog/issues/13 本文提出了一种新的开放词汇目标检测

适用于LLM的代理搜索增强事实评估器 (Search-Augmented Factuality Evaluator,SAFE)

原文地址:agentic-search-augmented-factuality-evaluator-safe-for-llms 2024 年 4 月 6 日 介绍 SAFE作为事实性评估代理,其评估结果在72%的情况下与人类众包注释者观点一致。 在随机选取的100个存在分歧的案例中,SAFE的判断结果有76%是正确的。 SAFE的成本比人类注释者低20倍以上。 利用GPT-4生成了Lon