大模型什么时候应该进行微调

2024-06-21 01:52
文章标签 微调 模型 应该 进行

本文主要是介绍大模型什么时候应该进行微调,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

经常会遇到一个问题——LinkedIn 上的人们问我如何微调 LLaMA 等开源模型,试图找出销售 LLM 托管和部署解决方案的业务案例的公司,以及试图利用人工智能和大模型应用于他们的产品。但当我问他们为什么不想使用像 ChatGPT 这样的闭源模型时,他们并没有真正的答案。因此,我决定以一个每天应用大模型来解决业务问题的人的身份来写这篇文章。

封闭 API 的案例

您是否尝试过为您的用例实现 ChatGPT API?也许您想总结文档或回答问题,或者只是想在您的网站上安装聊天机器人。通常,您会发现 ChatGPT 在多语言任务上表现得相当不错。

人们普遍认为这些模型太贵了。但以 0.002 美元/1K 代币的价格,我打赌您至少可以在 100 个样本上尝试一下,并评估 LLM 是否适合您的特定应用程序。事实上,在每天数千次 API 调用或在该范围内的情况下,ChatGPT API 的成本比我在本博客中所写的自定义开源模型的托管基础设施便宜得多。

一种说法是,假设您想要回答有关数千或数万份文档的问题。在这种情况下,仅根据此数据训练或微调开源模型并向微调模型询问有关此数据的问题不是更容易吗?事实证明,这并不像听起来那么简单(出于多种原因,我将在下面有关微调数据的标签部分中讨论)。

但 ChatGPT 有一个简单的解决方案可以回答包含数千个文档的上下文中的问题。它基本上是将所有这些文档作为小文本块存储在数据库中。

现在,向模型提供所有必要信息以回答问题的问题已从模型架构转移到包含文档块的数据库。

然后可以通过计算问题和文档块之间的相似性来找到相关文档。这通常是通过将块和问题转换为词嵌入向量,并计算块和问题之间的余弦相似度,最后仅选择高于特定余弦相似度的那些块作为相关上下文来完成的。

最后,问题和上下文可以组合成如下提示,并输入 LLM API(如 ChatGPT):

Prompt= f"回答问题。上下文: {context} \\n 问题: {question} "

您可能会问 - 为什么不将整个文档和问题输入提示中,而不是将其分成多个块?我们将文档分成块而不是将所有文档合并到一个提示中的原因是因为 LLM 对最大输入和输出长度有一定的限制。对于 ChatGPT,这是 4096 个令牌,或者大约 6-7 页文本。

当答案明显存在于这些文档中时,将文档卸载到数据库并使用封闭的 LLM API 进行查询可能会很有效。但在很多情况下,这些可能会产生次优结果,例如,如果您希望 ChatGPT 就某个利基主题提供专家观点,例如推测美国经济的财务前景。

特定领域的大模型

好的,您尝试过 ChatGPT 或 BARD — 但您不喜欢它。答案有点不对劲。例如,您询问 ChatGPT:

“美国经济的通胀可能会持续多久?”

它返回了:

作为人工智能语言模型,我无法确定地预测未来,尤其是对于复杂的经济系统。不过,我可以为您提供一些信息和观点,可能有助于您了解当前的情况。

通货膨胀是一种复杂的现象,可能由多种因素引起,例如需求增加、供应限制……。

不幸的是,这对你来说还不够好。当然,您可以向 ChatGPT 提供一些有关美联储主席杰罗姆·鲍威尔声明的最新消息。但这并不能为您提供与您交谈时所获得的同样丰富的领域经验 - 好吧,杰罗姆·鲍威尔,还有谁!或者另一位专家。

想想成为某个领域的专家需要什么。虽然其中一部分是阅读有关该主题的书籍,但也有很多是与该领域的主题专家互动,并从经验中学习。虽然 ChatGPT 接受过大量金融书籍的培训,但它可能还没有接受过顶级金融专家或其他特定领域专家的培训。那么如何才能让大模型成为金融领域的“专家”呢?这就是微调的用武之地。

大模型微调

在讨论微调 LLM 之前,我们先谈谈微调像 BERT 这样的小型语言模型,这在 LLM 之前很常见。对于像 BERT 和 RoBERTa 这样的模型,微调相当于传递一些上下文和标签。任务定义明确,例如从上下文中提取答案,或将电子邮件分类为垃圾邮件与非垃圾邮件。

然而,大型语言模型(LLM)之所以风靡一时,是因为它们可以通过改变你构建提示的方式无缝地执行多个任务,并且你拥有类似于与另一端的人交谈的体验。我们现在想要的是将大模型微调为某个学科的专家,并像“人”一样参与对话。这与在特定任务上微调 BERT 等模型有很大不同。

最早的开源突破之一是斯坦福大学的一组研究人员对 7B LLaMa 模型(今年早些时候由 Meta 发布)进行了微调,他们将其称为 Alpaca,在 52K 指令上的价格不到 600美元。不久之后,Vicuna团队发布了130亿参数的模型,达到了ChatGPT质量的90%。

最近,MPT-7B 转换器发布,可以摄取 65k 代币,是 ChatGPT 输入大小的 16 倍!培训从头开始,历时 9.5 天,花费 20 万美元。作为特定领域大模型的示例,彭博社发布了一个类似 GPT 的模型BloombergGPT,该模型专为金融而构建,并且也是从头开始训练的。

最近在培训和微调开源模型方面取得的进展只是中小型公司通过定制大模型丰富其产品的开始。那么,您如何决定何时需要微调或培训整个特定领域的大模型?

首先,重要的是要清楚地确定您所在领域的闭源 LLM API 的局限性,并证明让客户能够以极低的成本与该领域的专家聊天。对于十万条左右的指令来说,微调模型并不是很昂贵,但获得正确的指令需要仔细考虑。这也是你需要大胆一点的地方——我还想不出在许多领域中,经过微调的模型在特定领域的任务上表现得比 ChatGPT 明显更好,但我相信这即将到来,任何做得好的公司都会得到奖励。

这让我想到了从头开始完全训练大模型的案例。是的,这很容易花费数十万美元,但如果你提出一个可靠的案例,投资者会很乐意参与。在最近接受IBM 采访时,Hugging Face 首席执行官 Clem Delangue评论说,很快,定制的大模型可能会像作为专有代码库很常见,也是在行业中保持竞争力的重要组成部分。

要点

应用于特定领域的大模型在行业中可能非常有价值。有增加成本和可定制性的 3 个级别:

  1. 闭源 API + 文档嵌入数据库:第一个解决方案可能是最容易上手的,考虑到 ChatGPT API 的高质量 - 甚至可能为您提供足够好的(如果不是最好的)性能。而且很便宜!

  2. 微调 LLM:微调 LLaMA 类模型的最新进展表明,在某些领域获得类似于 ChatGPT 的基准性能需要约 500 美元。如果您有一个包含约 50-100k 指令或对话的数据库来微调基线模型,那么这可能是值得的。

  3. 从头开始训练:正如 LLaMA 和更新的 MPT-7B 模型所示,这需要大约 100-200k 的成本,并且需要一两周的时间。

现在您已经掌握了知识 - 继续构建您的自定义领域特定 LLM 应用程序!

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

这篇关于大模型什么时候应该进行微调的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1079882

相关文章

一份LLM资源清单围观技术大佬的日常;手把手教你在美国搭建「百万卡」AI数据中心;为啥大模型做不好简单的数学计算? | ShowMeAI日报

👀日报&周刊合集 | 🎡ShowMeAI官网 | 🧡 点赞关注评论拜托啦! 1. 为啥大模型做不好简单的数学计算?从大模型高考数学成绩不及格说起 司南评测体系 OpenCompass 选取 7 个大模型 (6 个开源模型+ GPT-4o),组织参与了 2024 年高考「新课标I卷」的语文、数学、英语考试,然后由经验丰富的判卷老师评判得分。 结果如上图所

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

人工和AI大语言模型成本对比 ai语音模型

这里既有AI,又有生活大道理,无数渺小的思考填满了一生。 上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。 但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达

智能客服到个人助理,国内AI大模型如何改变我们的生活?

引言 随着人工智能(AI)技术的高速发展,AI大模型越来越多地出现在我们的日常生活和工作中。国内的AI大模型在过去几年里取得了显著的进展,不少独创的技术点和实际应用令人瞩目。 那么,国内的AI大模型有哪些独创的技术点?它们在实际应用中又有哪些出色表现呢?此外,普通人又该如何利用这些大模型提升工作和生活的质量和效率呢?本文将为你一一解析。 一、国内AI大模型的独创技术点 多模态学习 多

OpenCompass:大模型测评工具

大模型相关目录 大模型,包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容 从0起步,扬帆起航。 大模型应用向开发路径:AI代理工作流大模型应用开发实用开源项目汇总大模型问答项目问答性能评估方法大模型数据侧总结大模型token等基本概念及参数和内存的关系大模型应用开发-华为大模型生态规划从零开始的LLaMA-Factor

模型压缩综述

https://www.cnblogs.com/shixiangwan/p/9015010.html

气象站的种类和应用范围可以根据不同的分类标准进行详细的划分和描述

气象站的种类和应用范围可以根据不同的分类标准进行详细的划分和描述。以下是从不同角度对气象站的种类和应用范围的介绍: 一、气象站的种类 根据用途和安装环境分类: 农业气象站:专为农业生产服务,监测土壤温度、湿度等参数,为农业生产提供科学依据。交通气象站:用于公路、铁路、机场等交通场所的气象监测,提供实时气象数据以支持交通运营和调度。林业气象站:监测林区风速、湿度、温度等气象要素,为林区保护和

企业如何进行员工的网络安全意识培训?

企业网络安全意识培训的重要性         企业网络安全意识培训是提升员工网络安全素质的关键环节。随着网络技术的快速发展,企业面临的网络安全威胁日益增多,员工的网络安全意识和技能水平直接关系到企业的信息安全和业务连续性。因此,企业需要通过系统的网络安全意识培训,提高员工对网络安全的认识和防范能力,从而降低企业在面对潜在安全风险时的损失和影响。 企业网络安全意识培训的方法         企

AI赋能天气:微软研究院发布首个大规模大气基础模型Aurora

编者按:气候变化日益加剧,高温、洪水、干旱,频率和强度不断增加的全球极端天气给整个人类社会都带来了难以估计的影响。这给现有的天气预测模型提出了更高的要求——这些模型要更准确地预测极端天气变化,为政府、企业和公众提供更可靠的信息,以便做出及时的准备和响应。为了应对这一挑战,微软研究院开发了首个大规模大气基础模型 Aurora,其超高的预测准确率、效率及计算速度,实现了目前最先进天气预测系统性能的显著