合合信息Embedding模型:引领中文文本向量化技术新高度

本文主要是介绍合合信息Embedding模型:引领中文文本向量化技术新高度,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 🍅前言
    • 🍓赛事含金量
    • 🍓Embedding技术简介
    • 🍓Embedding在大模型中的价值
    • 🍓合合信息Embedding模型特点及优势
    • 🍓合合信息Embedding模型测试
    • 🍓技术突破
    • 🍓公司介绍
  • 🍅总结

🍅前言

目前,随着 LangChain + LLM模型的火热,除了层出不穷的大模型外,因为检索的能力会很大程度影响最终的问答效果,所以文本的向量表示模型也是大家比较关注的。在人工智能的世界里,文本向量化技术是连接自然语言处理(NLP)与机器学习的桥梁。它能将复杂的文本数据转换成机器可理解的向量形式,从而使得机器能够更加高效地处理和分析文本数据。最近,合合信息发布的acge_text_embedding 句子向量模型在中文文本向量化领域取得了突破性进展,荣获MTEB中文榜单(C-MTEB)第一的成绩。

🍓赛事含金量

MTEB(Multilingual Text Embedding Benchmark)是一个国际公认的文本向量化技术评估标准,它覆盖了多种语言、多种评测任务,是衡量文本向量化技术先进性和实用性的重要尺度。该评测基准涵盖了分类、聚类、检索、排序、文本相似度等多个经典任务,通过丰富的数据集,全面检验了文本向量模型在中文环境下的性能表现。合合信息的模型能在C-MTEB榜单上获得第一,充分证明了其技术的先进性和实用价值。

榜单地址:https://huggingface.co/spaces/mteb/leaderboard

🍓Embedding技术简介

在机器学习和自然语言处理中,Embedding是指将高维度的数据(例如文字、图片、音频)映射到低维度空间的过程。Embedding向量通常是一个由实数构成的向量,它将输入的数据表示成一个连续的数值空间中的点。
简单来说,Embedding就是一个N维的实值向量,它几乎可以用来表示任何事情,如文本、音乐、视频等。在这里,我们也主要是关注文本的Embedding。
在这里插入图片描述
Embedding重要的原因在于它可以表示单词或者语句的语义。实值向量的Embedding可以表示单词的语义,主要是因为这些Embedding向量是根据单词在语言上下文中的出现模式进行学习的。例如,如果一个单词在一些上下文中经常与另一个单词一起出现,那么这两个单词的嵌入向量在向量空间中就会有相似的位置。这意味着它们有相似的含义和语义。

🍓Embedding在大模型中的价值

在自然语言处理(NLP)的诸多应用场景中,包括情感分析、机器翻译、问答系统等,Embedding扮演了核心角色。它们赋予了模型处理和理解人类语言、从而完成复杂任务的能力。然而,在大型语言模型,如ChatGPT等流行后,人们发现Embedding在解决模型输入限制方面展现出了新的价值。

传统上,如GPT3.5这类语言模型在处理输入文本的能力上存在限制,这通常介于几千至数万个tokens之间,具体取决于模型的架构及可用的硬件资源。这意味着对于较长的文本,如整本书或长篇文章,可能无法一次性完整输入语言模型进行处理。在这种情况下,需要将文本分割成较小的块或“片段”,以便模型单独处理。但这种分割方式可能会造成输出内容的上下文连贯性及整体连贯性问题,进而影响生成文本的质量。

Embedding的价值在此时凸显。通过将单词和短语转化为高维向量,Embedding使得语言模型可以以一种紧凑而高效的方式编码输入文本的上下文信息。借助这些上下文信息,模型能够产生更为连贯、上下文恰当的输出文本,即便是输入文本被分割成多个片段。此外,Embedding还可以在大量文本数据上进行预训练,之后在较小的数据集上进行微调,这有助于提升语言模型在多种NLP应用中的准确性与效率。

🍓合合信息Embedding模型特点及优势

在这里插入图片描述

如上图所示,与目前C-MTEB榜单上排名前五的开源模型相比,合合信息本次发布的acge模型较小,占用资源少;同时,使用过ChatGPT等大语言模型的应该知道MaxTokens上下文的概念很重要,它决定了我们的上下文对话长度,而acge_text_embedding模型输入文本长度为1024,满足绝大部分场景的需求。此外,acge模型还支持可变输出维度,让企业能够根据具体场景去合理分配资源。

合合信息的acge_text_embedding模型基于最新的深度学习技术,具有以下几个显著特点和优势:

  • 高分类、聚类准确率:模型通过对大量中文文本数据的深入学习,能够有效提取文本特征,使其在分类和聚类任务中展现出高准确率。

  • 广泛的应用场景:从相似性搜索、信息检索到推荐系统,acge_text_embedding模型都能提供强有力的技术支撑,极大地提升系统的性能和用户体验。

  • 模型的灵活性和可扩展性:合合信息的模型设计考虑到了不同行业、不同规模应用的需要,支持定制化服务,满足企业多样化的需求。

🍓合合信息Embedding模型测试

我们使用合合信息的acge_text_embedding模型来做一下句子的相似度计算吧!步骤如下:

安装 sentence_transformers:

pip install --upgrade sentence_transformers -i https://pypi.tuna.tsinghua.edu.cn/simple

代码:

from sentence_transformers import SentenceTransformersentences = ["我喜欢学习机器学习", "我对深度学习很感兴趣"]
# 使用合合信息的acge_text_embedding模型
model = SentenceTransformer('aspire/acge_text_embedding')
print(model.max_seq_length) # 输出上下文长度
embeddings_1 = model.encode(sentences, normalize_embeddings=True)
embeddings_2 = model.encode(sentences, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity) # 输出相似矩阵

运行结果:

在这里插入图片描述

可以看到这段代码输出这两个句子之间的相似度矩阵,根据输出的相似度值,值越接近 1 表示两个句子越相似,值越接近 0 表示两个句子越不相似,上述结果表明这两个句子较为相似!

注意:若无法访问huggingface,请使用魔法或者在镜像网站下载模型到本地!当然,也可以在huggingface线上体验该模型。地址:https://huggingface.co/aspire/acge_text_embedding

在这里插入图片描述

🍓技术突破

Embedding模型在当前大模型实际落地应用过程中扮演着至关重要的角色,而Embedding模型的训练通常需要大量的文本数据,这些数据使模型能够学习到单词间丰富的关系和语义,常见的文本embedding模型包括Word2Vec、GloVe和BERT等,这些模型通过不同的机制学习单词的向量表示,但它们的共同目标都是将文本信息压缩到一个连续的、低维的向量空间中。

为了更好地发挥大模型在应用过程中的价值,合合信息技术团队重点从数据集、训练策略等方面针对Embedding模型进行了优化,打造了acge模型。在数据集方面,技术人员收集构造了大量的数据集,保证训练的质量与场景覆盖面;在模型训练方面,引入多种有效的模型调优技术,比如Matryoshka训练方式,能够实现一次训练,获取不同维度的表征提取;为了不同任务针对性学习,使用策略学习训练方式,显著提升了检索、聚类、排序等任务上的性能;引入持续学习训练方式,克服了神经网络存在灾难性遗忘的问题,使模型训练迭代能够达到最优收敛空间,最终产出了目前业界第一的Embedding模型。

🍓公司介绍

合合信息是一家人工智能及大数据科技企业,基于自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。公开资料显示,公司的C端产品覆盖了全球百余个国家和地区的亿级用户,B端服务覆盖了近30个行业的企业客户。《财富》杂志2022年发布的世界500强公司名单中,公司客户已覆盖超过125家。

合合信息的更多产品信息可前往:https://www.textin.com/

🍅总结

在AI蓬勃发展的时代,作为开发者,我们需要与时俱进。不仅要熟练运用大模型的表层功能,更要深入底层,积极了解大模型相关技术的细节和原理。这样才能更好地理解和应用人工智能技术,不断提升自己的技能水平,跟上技术发展的步伐。

这篇关于合合信息Embedding模型:引领中文文本向量化技术新高度的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/928959

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

业务中14个需要进行A/B测试的时刻[信息图]

在本指南中,我们将全面了解有关 A/B测试 的所有内容。 我们将介绍不同类型的A/B测试,如何有效地规划和启动测试,如何评估测试是否成功,您应该关注哪些指标,多年来我们发现的常见错误等等。 什么是A/B测试? A/B测试(有时称为“分割测试”)是一种实验类型,其中您创建两种或多种内容变体——如登录页面、电子邮件或广告——并将它们显示给不同的受众群体,以查看哪一种效果最好。 本质上,A/B测

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言