企业级大模型的护城河:RAG + 微调

2024-02-01 11:04

本文主要是介绍企业级大模型的护城河:RAG + 微调,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

围绕LLM的炒作是前所未有的,但这是有道理的,生成式 AI 有潜力改变我们所知道的社会。

在很多方面,LLM将使数据工程师变得更有价值——这令人兴奋!

不过,向老板展示数据发现工具或文本到 SQL 生成器的炫酷演示是一回事,而将其与公司的专有数据(甚至更重要的客户数据)一起使用则是另一回事。

很多时候,公司急于构建人工智能应用程序,却对其实验的财务和组织影响缺乏远见。 这不是他们的错——高管和董事会应该为围绕这项(以及大多数)新技术的“快点走”心态承担责任。 (还记得 NFT 吗?)。

为了让人工智能(尤其是生成式人工智能)取得成功,我们需要退后一步,记住任何软件如何为企业做好准备。 为了实现这一目标,我们可以从其他行业获取线索,了解企业的准备情况,并将这些原则应用于生成式人工智能。

在我看来,企业就绪的生成式AI必须:

  • 安全和私密:你的AI应用程序必须确保数据安全、私密且合规,并具有适当的访问控制。 思考:AI的 SecOps。
  • 可扩展:你的AI应用程序必须易于部署、使用和升级,并且具有成本效益。 如果一个数据应用程序需要几个月的时间来部署、使用起来很乏味,并且在不引入一百万个其他问题的情况下不可能升级,那么您就不会购买或构建该数据应用程序。 我们不应该以任何不同的方式对待人工智能应用。
  • 值得信赖:你的AI应用程序应该足够可靠和一致。 我很难找到一位 CTO 愿意将自己的职业生涯押在购买或构建一款生成不可靠代码或生成随意且具有误导性的见解的产品上。

考虑到这些护栏,我们是时候开始给予生成式人工智能应有的努力了。 但这并不那么容易……

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包

1、企业AI为何难以实现?

简而言之,用于扩展、保护和操作 LLM 应用程序的底层基础设施尚不存在。

与大多数应用程序不同,人工智能在很大程度上是一个黑匣子。 我们“知道”我们要输入什么(原始的,通常是非结构化数据),我们“知道”我们要输出什么,但我们不知道它是如何到达那里的。 这很难扩展、安全和操作。

以 GPT-4 为例。 虽然 GPT-4 在某些任务(例如参加 SAT 和 AP 微积分 AB 考试)方面击败了 GPT 3.5,但它的一些输出充满了幻觉或缺乏充分完成这些任务所需的背景。 幻觉是由多种因素引起的,从嵌入不良到知识切断,并且经常影响公开或开放的LLM根据从互联网上抓取的信息进行培训而生成的响应质量,这些信息占大多数模型的比例。

为了减少幻觉,更重要的是,为了回答有意义的业务问题,公司需要用自己的专有数据来增强LLM,其中包括必要的业务背景。 例如,如果客户要求航空公司聊天机器人取消机票,该模型将需要访问有关客户的信息、有关他们过去的交易、有关取消政策和潜在的其他信息。 所有这些目前都存在于数据库和数据仓库中。

如果没有这种背景,人工智能只能根据公共信息进行推理,这些公共信息通常发布在互联网上,并且最初是在这些公共信息上进行训练的。 难题就在这里——公开专有的企业数据并将其整合到业务工作流程或客户体验中几乎总是需要坚实的安全性、可扩展性和可靠性。

2、实现企业级 AI 的两条途径:RAG 和微调

当谈到让人工智能企业做好准备时,最关键的部分出现在LLM开发过程的最后:检索增强生成(RAG)和微调。

RAG 将实时数据库集成到LLM的回复生成过程中,确保输出最新且真实。 另一方面,微调在目标数据集上训练模型以改善特定领域的响应。

然而,值得注意的是,RAG 和微调并不是相互排斥的方法,应该根据您的特定需求和用例来利用(通常是同时使用)。

3、何时使用 RAG

RAG 是一个框架,它通过让模型在尝试回答提示时访问数据库来提高 LLM 输出的质量。 该数据库是一个经过精心策划且值得信赖的潜在专有数据主体,允许模型将最新且可靠的信息纳入其响应和推理中。 这种方法最适合需要额外上下文信息的人工智能应用程序,例如客户支持响应(如我们的航班取消示例)或公司企业通信平台中的语义搜索。

RAG 应用程序旨在在生成响应之前从知识源检索相关信息,这使得它们非常适合查询结构化和非结构化数据源,例如矢量数据库和特征存储。 通过检索信息以提高法学硕士在输出生成时的准确性和可靠性,RAG 在减少幻觉和降低培训成本方面也非常有效。 RAG 还为团队提供了一定程度的透明度,因为您知道输入模型以生成新响应的数据来源。

关于 RAG 架构需要注意的一件事是,它们的性能在很大程度上取决于您构建有效数据管道的能力,使企业数据可用于 AI 模型。

4、何时使用微调

微调是在较小的、特定于任务和标记的数据集上训练现有LLM,并根据新数据调整模型参数和嵌入的过程。 微调依赖于预先策划的数据集,这些数据集不仅告知信息检索,还告知您要为其生成输出的领域的细微差别和术语。

根据我们的经验,微调最适合特定领域的情况,例如以利基语气或风格响应详细提示,即法律简报或客户支持票。 它还非常适合克服信息偏见和其他限制,例如语言重复或不一致。 过去一年的多项研究表明,经过微调的模型的性能显着优于 GPT-3 的现成版本和其他公开可用的模型。 事实证明,对于许多用例来说,经过微调的小型模型可以胜过大型通用模型,这使得微调在某些情况下成为提高成本效率的可行途径。

与 RAG 不同,微调通常需要更少的数据,但代价是更多的时间和计算资源。 此外,微调的操作就像一个黑匣子; 由于模型内化了新的数据集,因此确定新反应背后的推理变得具有挑战性,而幻觉仍然是一个有意义的问题。

微调 - 与 RAG 架构一样 - 需要构建有效的数据管道,使(标记的!)企业数据可用于微调过程。 这绝非易事。

5、为什么 RAG 可能对您的团队有意义

重要的是要记住,RAG 和微调不是相互排斥的方法,具有不同的优点和缺点,并且可以一起使用。 然而,对于绝大多数用例,RAG 在交付企业生成式 AI 应用程序时可能最有意义。

原因如下:

  • RAG 安全和隐私更易于管理:与 AI 模型不同,数据库具有内置角色和安全性,并且由于标准访问控制,谁看到什么是很容易理解的。 此外,通过访问安全且私密的专有数据语料库,您可以更好地控制使用哪些数据。 通过微调,训练集中包含的任何数据都会向应用程序的所有用户公开,而没有明显的方法来管理谁看到什么。 在许多实际场景中,尤其是在涉及客户数据时,没有这种控制是不行的。
  • RAG 更具可扩展性:RAG 比微调更便宜,因为后者涉及更新大型模型的所有参数,需要大量的计算能力。 此外,RAG 不需要标记和制作训练集,这是一个人力密集型的过程,可能需要数周甚至数月的时间才能完善每个模型。
  • RAG 可带来更值得信赖的结果。 简而言之,RAG 可以更好地处理动态数据,从最新数据的精选数据集中生成确定性结果。 由于微调在很大程度上就像一个黑匣子,因此很难查明模型如何生成特定结果,从而降低了信任和透明度。 通过微调,幻觉和不准确是可能的,甚至很可能,因为您依赖模型的权重以有损方式对业务信息进行编码。

在我看来,企业级人工智能将主要依赖于 RAG,并在更细致或特定领域的用例中进行微调。 对于绝大多数应用程序来说,微调对于利基场景来说是一个不错的选择,一旦行业能够降低大规模运行人工智能所需的成本和资源,微调就会更频繁地发挥作用。

然而,无论您使用哪一种,您的人工智能应用程序开发都需要通过某些数据存储(无论是 Snowflake、Databricks、像 Pinecone 这样的独立矢量数据库还是其他完全不同的东西)为这些模型提供公司数据的管道。 归根结底,如果在内部流程中使用生成式人工智能从非结构化数据中提取分析和洞察,它将被用于数据管道。

6、RAG 需要数据的可观察性

在 2010 年代初,机器学习被吹捧为一种神奇的算法,如果你给它的特征赋予完美的权重,它就会在命令下创造奇迹。 然而,通常提高机器学习性能的是对高质量功能的投资,特别是数据质量。

同样,为了让企业人工智能发挥作用,您需要关注生成模型所依赖的数据的质量和可靠性——可能是通过 RAG 架构。

由于 RAG 依赖于动态的、有时是最新的数据,因此需要数据可观察性来满足其企业就绪的期望。 数据可能因多种原因而损坏,例如格式错误的第三方数据、错误的转换代码或失败的 Airflow 作业。 事实总是如此。

数据可观察性使团队能够在整个数据生态系统中大规模监控、警报、分类和解决数据或管道问题。 多年来,它一直是现代数据堆栈的必备层。 随着 RAG 重要性的提高和人工智能的成熟,可观察性将成为LLM发展的关键合作伙伴。

RAG 和企业人工智能发挥作用的唯一方法是您可以信任数据。 为了实现这一目标,团队需要一种可扩展的自动化方法来确保数据的可靠性,以及一种企业级方法来识别根本原因并快速解决问题——在问题影响到他们所服务的LLM之前。

7、那么,事实上的LLM栈是什么?

就在我们说话的时候,人工智能工具的基础设施和技术路线图正在开发中,每天都有新的初创公司涌现来解决各种问题,行业巨头也声称他们也在应对这些挑战。 当谈到将企业数据整合到人工智能中时,我看到了这场竞赛中的三匹马。

第一匹马:矢量数据库。 Pinecone、Weaviate 和其他公司正在作为支持 RAG 架构的必备数据库平台而闻名。 虽然这些技术显示出很大的前景,但它们确实需要启动堆栈的新部分并创建工作流程以从安全性、可扩展性和可靠性的角度支持它。

第二匹马:由 OpenAI 或 Anthropic 等第三方 LLM 开发人员构建的模型的托管版本。 目前,由于易于使用,大多数团队通过 API 与这些崭露头角的人工智能领导者一起获得生成式人工智能修复。 插入 OpenAI API 并在几分钟内利用尖端模型? 如果您需要模型生成代码或根据公共信息解决众所周知的非特定提示,那么这种方法开箱即用,效果很好。 如果您确实希望将专有信息合并到这些模型中,则可以使用这些平台提供的内置微调或 RAG 功能。

最后,第三匹马:现代数据栈。 Snowflake 和 Databricks 已经宣布,他们正在将矢量数据库嵌入到他们的平台以及其他工具中,以帮助将这些平台上已经存储和处理的数据合并到法学硕士中。 这对许多人来说很有意义,并且允许负责人工智能计划的数据团队利用他们已经使用的工具。 既然基础已经到位,为什么还要重新发明轮子呢? 更不用说能够轻松地将传统关系数据与矢量数据连接起来的可能性……与另外两匹马一样,这种方法也有一些缺点:Snowflake Cortex、Lakehouse AI 和其他 MDS + AI 产品才刚刚起步,需要一些前期准备 投资将矢量搜索和模型训练纳入您现有的工作流程。 为了更深入地了解这种方法,我鼓励您查看 Meltano 的相关文章,了解为什么最好的法学硕士堆栈可能就在您面前。

无论我们选择什么马,有价值的业务问题都无法通过基于互联网数据训练的模型来回答。 它需要有公司内部的背景。 通过以安全、可扩展和可信的方式提供此上下文,我们可以实现企业级人工智能。

8、企业AI的未来就在您的管道中

为了让人工智能发挥这种潜力,数据和人工智能团队需要以应有的勤奋对待LLM增强,并将安全性、可扩展性和可靠性作为首要考虑因素。 无论您的用例需要 RAG 还是微调(或两者兼而有之),您都需要确保数据栈基础到位,以保持低成本、性能一致和高可靠性。

数据需要安全且私密; LLM部署需要具有可扩展性; 并且您的结果需要值得信赖。 通过可观察性保持数据质量的稳定脉动对于这些需求至关重要。

从孤立的 X 演示到企业级人工智能的演变中最好的部分是什么? 在拥有和推动生成式 AI 投资的投资回报率方面,RAG 为数据工程师提供了最佳席位。

我已准备好迎接企业级人工智能。 你呢?


原文链接:企业级LLM的护城河 - BimAnt

这篇关于企业级大模型的护城河:RAG + 微调的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/667070

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

Retrieval-based-Voice-Conversion-WebUI模型构建指南

一、模型介绍 Retrieval-based-Voice-Conversion-WebUI(简称 RVC)模型是一个基于 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)的简单易用的语音转换框架。 具有以下特点 简单易用:RVC 模型通过简单易用的网页界面,使得用户无需深入了

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

秋招最新大模型算法面试,熬夜都要肝完它

💥大家在面试大模型LLM这个板块的时候,不知道面试完会不会复盘、总结,做笔记的习惯,这份大模型算法岗面试八股笔记也帮助不少人拿到过offer ✨对于面试大模型算法工程师会有一定的帮助,都附有完整答案,熬夜也要看完,祝大家一臂之力 这份《大模型算法工程师面试题》已经上传CSDN,还有完整版的大模型 AI 学习资料,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

AI Toolkit + H100 GPU,一小时内微调最新热门文生图模型 FLUX

上个月,FLUX 席卷了互联网,这并非没有原因。他们声称优于 DALLE 3、Ideogram 和 Stable Diffusion 3 等模型,而这一点已被证明是有依据的。随着越来越多的流行图像生成工具(如 Stable Diffusion Web UI Forge 和 ComyUI)开始支持这些模型,FLUX 在 Stable Diffusion 领域的扩展将会持续下去。 自 FLU

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

线性因子模型 - 独立分量分析(ICA)篇

序言 线性因子模型是数据分析与机器学习中的一类重要模型,它们通过引入潜变量( latent variables \text{latent variables} latent variables)来更好地表征数据。其中,独立分量分析( ICA \text{ICA} ICA)作为线性因子模型的一种,以其独特的视角和广泛的应用领域而备受关注。 ICA \text{ICA} ICA旨在将观察到的复杂信号