LLM Drift(漂移), Prompt Drift Cascading(级联)

2024-03-10 10:36

文章标签 llm prompt 级联漂移 drift cascading

本文主要是介绍LLM Drift(漂移), Prompt Drift Cascading(级联)，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

原文地址：LLM Drift, Prompt Drift & Cascading

提示链接可以手动或自动执行；手动需要通过 GUI 链构建工具手工制作链。自治代理在执行时利用可用的工具动态创建链。这两种方法都容易受到级联、LLM 和即时漂移的影响。

2024 年 2 月 23 日

在讨论大型语言模型（LLM）时，术语“LLM漂移”、“提示漂移”和“级联漂移”通常指的是模型性能随时间或条件变化的情况。这些术语涉及不同的概念，但都与模型的稳定性和可靠性有关。
1. **LLM漂移**：
这指的是大型语言模型的性能随着时间的推移而逐渐变化的现象。这种漂移可能是由于模型的训练数据随时间而变化、模型的权重调整、外部信息的影响或其他因素造成的。LLM漂移可能会导致模型的行为和输出发生变化，有时这些变化可能是不希望发生的。
2. **提示漂移**：
提示漂移是指在给定相同提示的情况下，模型输出随时间变化的现象。这可能是由于模型的内部变化或提示本身的微小变化导致的。提示漂移可能会影响模型的可靠性和一致性。
3. **级联漂移**：
级联漂移是指在多阶段或层次的任务中，一个阶段的输出影响下一个阶段的输入，从而导致整个任务链的性能下降。例如，在一个级联的问答系统中，如果第一个阶段（问题生成）的输出存在漂移，那么第二个阶段（答案生成）的性能可能会受到影响。
为了解决这些问题，研究人员和开发者可能会采取一系列措施，如定期评估模型的性能、使用更稳定的训练数据、改进模型架构或实施更严格的质量控制措施。通过这些方法，可以减少漂移现象，提高模型的稳定性和可靠性。

LLMs漂移

LLM 漂移是指 LLM 反应在相对较短的时间内发生的明确变化。这与LLMs本质上是不确定的或与轻微的即时工程措辞变化无关；而是对LLMs的根本性改变。

最近的一项研究发现，在四个月的时间里，GPT-4 和 GPT-3.5 的反应准确性在积极方面波动很大，但更令人担忧的是……消极方面。

研究发现，GPT-3.5 和 GPT-4 差异显着，并且在某些任务上存在性能下降。

我们的研究结果强调了持续监控LLMs行为的必要性。-来源

下图显示了四个月内模型准确性的波动。在某些情况下，弃用是相当明显的，准确率损失超过 60%。

来源

迅速漂移

LLMs的输出是不确定的，这意味着同一LLMs在不同时间的精确输入很可能会随着时间的推移产生不同的响应。

从本质上讲，这不是问题，措辞可以不同，但基本事实保持不变。

然而，在某些情况下，LLMs的反应会出现偏差。例如，LLMs已被弃用，并且通常需要迁移，正如我们最近在 OpenAI 中看到的，弃用了许多模型。因此，提示保持不变，但底层模型引用发生了变化。

推理时注入提示的数据有时也可能不同。可以说，所有这些因素都会导致一种称为即时漂移的现象。

提示漂移是指由于模型更改、模型迁移或推理时提示注入数据的变化，提示随着时间的推移会产生不同响应的现象。

引起快速漂移的原因

受模型启发的切线
问题提取不正确
LLM 的随机性和创造性的惊喜

出现了提示管理和测试接口，例如ChainForge，最近 LangChain 推出了LangSmith ，以及Vellum等商业产品。

确保在大型语言模型迁移/弃用之前可以测试生成应用程序（Gen-Apps）有明确的市场需求。

如果一个模型在很大程度上与底层的LLMs无关，那就更好了。实现这一目标的一个途径是利用大型语言模型的上下文学习 (ICL) 功能。

级联

级联是指链中的一个节点引入异常或偏差，并且这种意外异常被转移到下一个节点，在下一个节点，异常很可能会加剧。

每个节点的输出都越来越偏离预期结果。

这种现象通常称为级联。

考虑下图：

在链式应用程序中，用户输入可能是意外的或未计划的，因此从节点产生不可预见的输出。
前一个节点的输出可能不准确或产生一定程度的偏差，这种偏差在当前节点中会加剧。
由于 LLM 具有不确定性，因此 LLM 响应也可能是意外的。第三点是可以引入即时漂移或 LLM 漂移的地方。
然后节点2的输出被结转并导致偏差的级联。

结束语

不应孤立地看待即时链接，而应将即时工程视为由多个分支组成的学科。

提示 LLM 时遵循的措辞或技术也很重要，并且对输出的质量有明显的影响。

即时工程是链接的基础，即时工程的学科非常简单且易于理解。

然而，随着 LLM 领域的发展，提示正在变得可编程（通过 RAG 进行模板和上下文注入），并纳入日益复杂的结构中。

因此，链接受到代理、管道、思想链推理等元素的支持。

这篇关于LLM Drift(漂移), Prompt Drift Cascading(级联)的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/793968。 23002807@qq.com

相关文章

找不到Anaconda prompt终端的原因分析及解决方案

找不到Anaconda prompt终端的原因分析及解决方案

《找不到Anacondaprompt终端的原因分析及解决方案》因为anaconda还没有初始化,在安装anaconda的过程中,有一行是否要添加anaconda到菜单目录中,由于没有勾选,导致没有菜... 目录问题原因问http://www.chinasem.cn题解决安装了 Anaconda 却找不到 An

阅读更多...

Prompt - 将图片的表格转换成Markdown

Prompt - 将图片的表格转换成Markdown

Prompt - 将图片的表格转换成Markdown 0. 引言1. 提示词2. 原始版本 0. 引言最近尝试将图片中的表格转换成Markdown格式，需要不断条件和优化提示词。记录一下调整好的提示词，以后在继续优化迭代。 1. 提示词英文版本： You are an AI assistant tasked with extracting the content of

阅读更多...

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。大语言模型已被广泛采用，但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程，用于Transformer中的前馈和注意力投影层，这可以将推理所需

阅读更多...

LLM系列 | 38：解读阿里开源语音多模态模型Qwen2-Audio

LLM系列 | 38：解读阿里开源语音多模态模型Qwen2-Audio

引言模型概述模型架构训练方法性能评估实战演示总结引言金山挂月窥禅径，沙鸟听经恋法门。小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖铁观音的小男孩，今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日，阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

阅读更多...

LLM应用实战: 产业治理多标签分类

LLM应用实战: 产业治理多标签分类

数据介绍标签体系产业治理方面的标签体系共计200+个，每个标签共有4个层级，且第3、4层级有标签含义的概括信息。原始数据企业官网介绍数据，包括基本介绍、主要产品等企业专利数据，包括专利名称和专利摘要信息，且专利的数据量大。 LLM选型经调研，采用Qwen2-72B-Instruct-GPTQ-Int4量化版本，占用显存更少，且效果与非量化相当，

阅读更多...

LLM大模型教程：langchain 教程

LLM大模型教程：langchain 教程

软件安装 pip install pymupdfpip install langchainpip install langchain-cliconda install -c pytorch -c nvidia faiss-gpu=1.7.4 mkl=2021 blas=1.0=mkl 由于langchain不支持qwen模型，我们需要自定义模型 from typing import A

阅读更多...

LLM模型：代码讲解Transformer运行原理

LLM模型：代码讲解Transformer运行原理

视频讲解、获取源码：LLM模型：代码讲解Transformer运行原理(1)_哔哩哔哩_bilibili 1 训练保存模型文件 2 模型推理 3 推理代码 import torchimport tiktokenfrom wutenglan_model import WutenglanModelimport pyttsx3# 设置设备为CUDA（如果可用），否则使用CPU#

阅读更多...

[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案

[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案

https://github.com/sramshetty/ShortGPT/tree/main My剪枝方案（暂定）：剪枝目标：1.5B —> 100～600M 剪枝方法：层粒度剪枝 1、基于BI分数选择P%的冗余层，P=60~80 2、对前N%冗余层，

阅读更多...

如何校准实验中振镜频率的漂移

如何校准实验中振镜频率的漂移

在实验过程中，使用共振扫描振镜（如Cambridge Technology的8kHz振镜）时，频率漂移是一个常见问题，尤其是在温度变化或长期运行的情况下。为了确保实验的准确性和稳定性，我们需要采取有效的校准措施。本文将介绍如何监测、调节和校准振镜频率，以减少漂移对实验结果的影响。 1. 温度管理和稳定性控制振镜的频率变化与温度密切相关，温度的升高会导致机械结构的变化，进而影响振镜的共

阅读更多...

jmeter压力测试，通过LLM利用RAG实现知识库问答，NEO4J部署，GraphRAG以知识图谱在查询时增强提示实现更准确的知识库问答（9/7）

jmeter压力测试，通过LLM利用RAG实现知识库问答，NEO4J部署，GraphRAG以知识图谱在查询时增强提示实现更准确的知识库问答（9/7）

前言这周也是杂七杂八的一天（高情商：我是一块砖，哪里需要往哪里搬），首先是接触了jemter这个压力测试工具，然后帮公司的AIGC项目编写使用手册和问答手册的第一版，并通过这个平台的智能体实现知识库问答的功能展示，以及部分个人扩展和思考（NEO4J创建知识图谱的GraphRAG）。 Jmeter Jmeter是一个压力测试工具，一开始导师叫我熟悉的时候我还说

阅读更多...