C-Pack: Packaged Resources To Advance General Chinese Embedding

2023-10-13 01:52

本文主要是介绍C-Pack: Packaged Resources To Advance General Chinese Embedding,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简介

在这里插入图片描述

论文提出了一个C-pack资源集合,其中包括三个主要的部分:

  1. C-MTEB一个中文综合基准集合,包括6个任务和35个数据集合。
  2. C-MTP一个中文embedding数据集合,包括unlabeled和labeled两种数据。
  3. C-TEM一个embedding模型家族,包括多种尺寸的模型。
  4. 提出了一套预训练的Recipe方法,通过一次预训练+两次fine-tune取得了良好的模型训练效果。
    并且论文中提出的模型在C-MTEB数据集合上取得了优异的效果,有些任务取得了10%+的效果。
    并且模型在英文的MTEB集合上也取得了SOTA的效果。

具体工作

之前的embedding预训练模型有以下的问题:
1.既没有准备好的训练资源。
2.也没有很好的benchmarks去验证模型的通用性。
为了解决传统做法的这些问题,论文做了以下的工作。
总体上C-Pack提供了中文embedding的首选解决方案。

在这里插入图片描述

1.C-MTEB中文基准

这个基准是在MTEB基础上进行的扩展,收集了6种任务的35个public数据集。由于集合的规模和多样性,主要的中文embedding能力可以被很好的评估,可以很好的评估embedding模型的通用性。
评估的主要任务有:
1.Retrieval召回
2.Re-ranking重排
3.STS语音文本相似度
4.Classification分类
5.Pair-classification文本对相关度分类
6.Clustering聚类
embedding模型的通用能力用6种任务的平均得分进行评估

2.C-MTP中文文本预料

建立了100M的中文文本预料,包括大量的unlabeled数据和少量高质量的labeled数据。
1.C-MTP (unlabeled)寻找大量的语料,蕴含大量的语义信息。主要数据来源于开源网络语料库。最主要的来源是wudao语料库,对于其中的每一篇文章,我们解析了title和passage正文作为文本对,用同样的方法也整理了很多其他的开源语料。因为开源的语料对不能保证完全的相关性,因此进行了第三方模型判断,过滤掉得分较低的语料对。为语料库带来了非常好的效果提升。
2.C-MTP (labeled)同时收集了84w高质量的预料对,大多数的labeled的语料对,都是通过人工标注的方式进行的。人工标注的语料对同样包含了文本embedding的多种能力,包括召回、排序等。

3.C-TEM中文文本embedding模型

利用上面的语料训练了一些列模型(包括24M,102M,326M三种模型),模型在中文基准上取得了非常好的效果。并且C-TEM可以继续被fine-tune应用到不同的业务场景中。
模型整体是Bert-like的模型结构,最后一层的隐藏状态CLS被训练作为embedding信息。最大的一个模型达到了最高的embedding通用能力。
C-TEM模型可以作为一个embedding基座,进行fine-tune预训练后应用到不同的业务中。

4.Training Recipe训练方法

提出来三步训练方法,

4.1 用plain text进行预训练

在这里插入图片描述

4.2 C-MTP (unlabeled)的数据进行对比学习

在这里插入图片描述

4.3 C-MTP (labeled)进行多任务学习

在这里插入图片描述

这篇关于C-Pack: Packaged Resources To Advance General Chinese Embedding的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/199980

相关文章

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

神经网络训练不起来怎么办(零)| General Guidance

摘要:模型性能不理想时,如何判断 Model Bias, Optimization, Overfitting 等问题,并以此着手优化模型。在这个分析过程中,我们可以对Function Set,模型弹性有直观的理解。关键词:模型性能,Model Bias, Optimization, Overfitting。 零,领域背景 如果我们的模型表现较差,那么我们往往需要根据 Training l

【AIGC】Transformer模型:Postion Embedding概述、应用场景和实现方式的详细介绍。

🏆🏆欢迎大家来到我们的天空🏆🏆 🏆🏆如果文章内容对您有所触动,别忘了点赞、关注,收藏! 🏆 作者简介:我们的天空 🏆《头衔》:大厂高级软件测试工程师,阿里云开发者社区专家博主,CSDN人工智能领域新星创作者。 🏆《博客》:人工智能,深度学习,机器学习,python,自然语言处理,AIGC等分享。 所属的专栏:TensorFlow项目开发实战,人工智能技术 🏆🏆主页:我们

深入RAG优化:BGE词嵌入全解析与Landmark Embedding新突破

前面已经写过一篇关于Embedding选型的文章,《如何高效选择RAG的中文Embedding模型?揭秘最佳实践与关键标准!》,主要介绍通过开源网站的下载量和测评效果选择Embedding模型。 一、Embedding选型建议与结果 选型建议: 1、大部分模型的序列长度是 512 tokens。8192 可尝试 tao-8k,1024 可尝试 stella。 2、在专业数据领域上,嵌入

关于NLP的word Embedding

Embedding在数学上表示一个maping, f: X -> Y, 也就是一个function,其中该函数是injective(就是我们所说的单射函数,每个Y只有唯一的X对应,反之亦然)和structure-preserving (结构保存,比如在X所属的空间上X1 < X2,那么映射后在Y所属空间上同理 Y1 < Y2)。那么对于word embedding,就是将单词word映射到另外

解决Can‘t load tokenizer for ‘bert-base-chinese‘.问题

报错提示: OSError: Can't load tokenizer for 'bert-base-chinese'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the same name. Otherwi

VirtualBox安装VirtualBox Extension Pack,支持USB No USB devices connected after upgrade

安装步骤及出现问题解决No USB devices connected after upgrade: 一、本要主机ubuntu14.04,安装virtualbox,支持usb设置步骤: 1.安装VirtualBox. 可以从https://www.virtualbox.org官方站点下载或者从软件中心。 2.在VirtualBox里安装Windows; 3.为USB2.0,你需要

eclipse maven工程中src/main/resources目录下创建的文件夹是包图标的解决方法

转载:https://blog.csdn.net/luwei42768/article/details/72268246 如图:在src/main/resources目录下创建的文件夹却以包的图标显示 修改方法: 入下图,按顺序1 ,2,3,4操作,把3处remove,在4处添加** 修改后如下: 然后点击完成后,文件夹图标显示正常了

General Algorithm

Y or N Silly Board Game String Sorting Find the smallest char in a string Integer Sorting Pairs Y or N Silly Board Game 2 opponents: A&B. To represent a board by String[] board = ne

General Algorithms - Graph

BFS Red Knights Shortest Path - World CodeSprint 12 - DFS Even TreeRoads and Libraries MST Kruskal MST Really Special Subtree A BFS Red Knight’s Shortest Path - World CodeSprint