性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理

2023-10-21 15:13

本文主要是介绍性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

ab1ca58e527b057b7db021c0fdcccb2f.gif

©PaperWeekly 原创 · 作者 | 邹安妮

单位 | 上海交通大学

研究方向 |NLP,大模型推理

大语言模型(LLMs)通过思维链(CoT)提示技术,生成中间推理链作为得出答案的依据。然而,当前的 CoT 方法要么采用简单的通用提示(例如“让我们一步一步思考”),要么依赖人工制定且任务特定的样本示例来获得更好的性能,从而在性能通用性之间产生了巨大的鸿沟。为了弥补这一鸿沟,本文提出了 Meta-CoT:一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。

aad1fbe06e7fd15eaf58b569c2a7e5d4.png

论文标题:

Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models

论文链接:

https://arxiv.org/pdf/2310.06692.pdf

代码链接:

https://github.com/Anni-Zou/Meta-CoT

4fc37540cdcce0d3d048881dfc1ef141.png


引言

大语言模型(LLMs)凭借思维链(CoT)提示在复杂推理方面表现出了优越的能力。CoT 提示需要生成中间推理链,作为得出答案之前的基本依据。目前的 CoT 提示方法主要分为两类,我们分别称为 General Zero-Shot-CoTSpecific Few-Shot-CoT。前者利用“让我们一步一步思考”等一般性提示,将其直接附加到输入问题中,旨在唤醒 LLMs 的逐步推理潜力;后者提供特定于任务的输入输出对作为样本示例,并将它们放在输入问题之前,目的是引导 LLMs 通过模仿学习样本示例来进行多步推理。

baeb73f96a9b205fc2a8d3728f6bb27f.png

然而,当前研究主要存在两个局限性:1)General Zero-Shot-CoT 由于不需要任何与任务相关的样本而具有良好的泛化能力,但与 few-shot 模式相比,它在性能方面往往相形见绌;2)Specific Few-Shot-CoT 严重依赖于任务特定的样本示例来获得优越性能,但无法提供良好的泛化能力。

在实际应用中,LLMs 通常不知道用户会输入什么样的问题(区别于现有的针对每个特定任务的测试集进行测试的情况),因而难以为每种类型的问题预先准备上下文提示。因此,研究自动适用于各种类型问题的提示技术具有重要意义。

为了弥合性能通用性之间的差距并提高 CoT 提示技术在实际场景中的应用价值,本文提出 Meta-CoT:一种在输入问题类型未知的混合任务场景中可通用的思维链提示方法。Meta-CoT 不仅在 10 项推理任务上取得出色的性能,而且具有卓越的泛化能力。其在 SVAMP(93.7%)上取得了最先进的结果,而无需任何额外的程序辅助方法。

6a08c4a56f562f3b38310522c728fa69.png


方法

Meta-CoT 由三个阶段组成:

1. 场景识别(Scenario Identification):利用现成公开的推理数据集,根据<类别,形式>的划分策略获得含多个数据组的混合问题池,随后从每个数据组中随机采样一个问题,组合之后将其作为上下文样本示例,用以辅助 LLMs 对输入问题进行自动场景分类;

2. 样例选择(Demonstration Selection):根据阶段(1)得到的场景,通过对问题进行编码和聚类的方法,从相应的场景数据池中获得最具代表性的问题,从而构建多样化样例;

3. 答案推导(Answer Derivation):使用阶段(2)获取的多样化样例对输入问题执行最终答案推导。

30e9cb5e3a772556da388d546d37f8f8.png

a0265da3e0d0f6f7881a2e76bedf5188.png


实验结果

我们对 10 个分布内推理任务进行了实验,涵盖算术推理、常识推理和符号推理。此外,我们还在 5 个分布外数据集上验证了 Meta-CoT 的稳定性和泛化性:

1. Meta-CoT 在 SVAMP 上实现了无需任何额外的程序辅助方法的最优结果 (93.7%)。 此外,即使缺乏来自 GSM8K 数据集的上下文示例,Meta-CoT 在 GSM8K 上也能达到优越的性能 (93.6%)。

ddde05e7bac909b0cb31618d21708899.png

2. Meta-CoT 在保持良好稳定性的同时,还能实现不错的性能。这些结果证明,Meta-CoT 适用于输入数据没有特定类型定义的实际情况,具备良好的实际应用价值。 

0d2ea8ec81ae8be56bd53480f0f7d74c.png

3. 为了进一步探讨在实现通用性中起着关键作用的场景识别(scenario identification)阶段的效果,我们去除了这个阶段,并采用一种理想化的策略:即假设模型被赋予了正确场景。结果表明,即使给出正确的场景,也只能实现细微的改进 (70.2% → 70.6%)。这表明 Meta-CoT 潜在激发了 LLMs 在无需人工干预下的自我决策能力。

f391e18fdcd4ba662dadfefcc1cb4cfc.png

1511d9ae69cf4f3fdfc9bdc0e9e8c89e.png


本文总结

在这项工作中,我们首先提出了一个具有重要应用价值的新场景,即输入问题类型未知的混合任务场景。在这一具有挑战性的场景下,我们提出了可通用的思维链提示方法:Meta-CoT。在 15 个分布内和分布外推理数据集上的结果表明,Meta-CoT 在达到优越性能的同时还享有良好的泛化能力。

更多阅读

6203f2666492b669661e620e53379180.png

9518f69ad55ee7a2a34b90a5df6183c6.png

23a923bd655bbbe67ce53de28c87b546.png

28f0fd72ea94c49fc3b2223a7c881b54.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

9fede8818bad4fae06106d67c1a254be.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

d78c60a26ad986b9b5cfef66d7225c20.jpeg

这篇关于性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/255215

相关文章

linux生产者,消费者问题

pthread_cond_wait() :用于阻塞当前线程,等待别的线程使用pthread_cond_signal()或pthread_cond_broadcast来唤醒它。 pthread_cond_wait() 必须与pthread_mutex 配套使用。pthread_cond_wait()函数一进入wait状态就会自动release mutex。当其他线程通过pthread

如何突破底层思维方式的牢笼

我始终认为,牛人和普通人的根本区别在于思维方式的不同,而非知识多少、阅历多少。 在这个世界上总有一帮神一样的人物存在。就像读到的那句话:“人类就像是一条历史长河中的鱼,只有某几条鱼跳出河面,看到世界的法则,但是却无法改变,当那几条鱼中有跳上岸,进化了,改变河道流向,那样才能改变法则。”  最近一段时间一直在不断寻在内心的东西,同时也在不断的去反省和否定自己的一些思维模式,尝试重

问题:第一次世界大战的起止时间是 #其他#学习方法#微信

问题:第一次世界大战的起止时间是 A.1913 ~1918 年 B.1913 ~1918 年 C.1914 ~1918 年 D.1914 ~1919 年 参考答案如图所示

2024.6.24 IDEA中文乱码问题(服务器 控制台 TOMcat)实测已解决

1.问题产生原因: 1.文件编码不一致:如果文件的编码方式与IDEA设置的编码方式不一致,就会产生乱码。确保文件和IDEA使用相同的编码,通常是UTF-8。2.IDEA设置问题:检查IDEA的全局编码设置和项目编码设置是否正确。3.终端或控制台编码问题:如果你在终端或控制台看到乱码,可能是终端的编码设置问题。确保终端使用的是支持你的文件的编码方式。 2.解决方案: 1.File -> S

vcpkg安装opencv中的特殊问题记录(无法找到opencv_corexd.dll)

我是按照网上的vcpkg安装opencv方法进行的(比如这篇:从0开始在visual studio上安装opencv(超详细,针对小白)),但是中间出现了一些别人没有遇到的问题,虽然原因没有找到,但是本人给出一些暂时的解决办法: 问题1: 我在安装库命令行使用的是 .\vcpkg.exe install opencv 我的电脑是x64,vcpkg在这条命令后默认下载的也是opencv2:x6

大语言模型(LLMs)能够进行推理和规划吗?

大语言模型(LLMs),基本上是经过强化训练的 n-gram 模型,它们在网络规模的语言语料库(实际上,可以说是我们文明的知识库)上进行了训练,展现出了一种超乎预期的语言行为,引发了我们的广泛关注。从训练和操作的角度来看,LLMs 可以被认为是一种巨大的、非真实的记忆库,相当于为我们所有人提供了一个外部的系统 1(见图 1)。然而,它们表面上的多功能性让许多研究者好奇,这些模型是否也能在通常需要系

问题-windows-VPN不正确关闭导致网页打不开

为什么会发生这类事情呢? 主要原因是关机之前vpn没有关掉导致的。 至于为什么没关掉vpn会导致网页打不开,我猜测是因为vpn建立的链接没被更改。 正确关掉vpn的时候,会把ip链接断掉,如果你不正确关掉,ip链接没有断掉,此时你vpn又是没启动的,没有域名解析,所以就打不开网站。 你可以在打不开网页的时候,把vpn打开,你会发现网络又可以登录了。 方法一 注意:方法一虽然方便,但是可能会有

亮相WOT全球技术创新大会,揭秘火山引擎边缘容器技术在泛CDN场景的应用与实践

2024年6月21日-22日,51CTO“WOT全球技术创新大会2024”在北京举办。火山引擎边缘计算架构师李志明受邀参与,以“边缘容器技术在泛CDN场景的应用和实践”为主题,与多位行业资深专家,共同探讨泛CDN行业技术架构以及云原生与边缘计算的发展和展望。 火山引擎边缘计算架构师李志明表示:为更好地解决传统泛CDN类业务运行中的问题,火山引擎边缘容器团队参考行业做法,结合实践经验,打造火山

vue同页面多路由懒加载-及可能存在问题的解决方式

先上图,再解释 图一是多路由页面,图二是路由文件。从图一可以看出每个router-view对应的name都不一样。从图二可以看出层路由对应的组件加载方式要跟图一中的name相对应,并且图二的路由层在跟图一对应的页面中要加上components层,多一个s结尾,里面的的方法名就是图一路由的name值,里面还可以照样用懒加载的方式。 页面上其他的路由在路由文件中也跟图二是一样的写法。 附送可能存在