Can large language models explore in-context?

2024-03-25 19:12

文章标签 context models language large explore

本文主要是介绍Can large language models explore in-context?，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Can large language models explore in-context?

相关链接：arXiv
关键字：Large Language Models、Exploration、Reinforcement Learning、Decision Making、In-context Learning

摘要

本文研究了当代大型语言模型（LLMs）在无需训练干预的情况下，能否在上下文中进行探索，这是强化学习和决策制定中的一个核心能力。我们专注于现有LLMs的原生性能，通过在简单的多臂老虎机环境中部署LLMs作为代理，并完全在上下文中指定环境描述和交互历史。我们使用GPT-3.5、GPT-4和Llama2进行实验，发现除了一种配置外，其他配置都无法稳健地进行探索行为：GPT-4结合链式思维推理和外部总结的交互历史，呈现为充分统计信息。我们的结论是，非平凡的算法干预，如微调或数据集策划，可能需要赋予基于LLM的决策制定代理在复杂环境中更复杂的探索能力。

核心方法

研究的核心方法是通过在多臂老虎机（MAB）环境中部署LLMs作为决策代理，并在LLM提示中完全指定环境描述和交互历史。具体步骤包括：

环境描述：为LLM提供MAB问题的场景描述，包括时间范围T。
交互历史：提供与LLM的交互历史，可以是原始列表或总结的形式。
请求答案：要求LLM提供一个或多个臂（动作）的选择，可能包括链式思维（CoT）解释。
探索与利用：评估LLM在探索（尝试不同臂以收集信息）与利用（选择已知最佳臂）之间的行为。

实验说明

实验结果数据展示了不同LLM配置在多臂老虎机问题上的表现，特别是在探索行为上的成功与否。实验使用了GPT-3.5、GPT-4和Llama2模型，并考虑了不同的提示设计。实验的主要发现是，除了GPT-4的一个特定配置外，其他配置都未能展现出稳健的探索行为。以下是部分实验结果的总结表格：

模型/配置	探索失败类型	探索成功配置
GPT-3.5	普遍	无
GPT-4	普遍，但有例外	BSSC0
Llama2	普遍	无

结论

当前的LLMs在简单的RL环境中可能通过适当的提示工程进行探索，但在更复杂的环境中可能需要训练干预来赋予LLMs更复杂的探索能力。我们的研究结果表明，除了GPT-4的一个特定配置外，其他配置都无法稳健地进行探索。这表明在更复杂的决策制定环境中，可能需要进一步的算法设计和训练干预。

这篇关于Can large language models explore in-context?的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/845980。 23002807@qq.com

相关文章

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

论文翻译：arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染：一项综述文章目录大规模语言模型的基准数据污染：一项综述摘要1 引言摘要大规模语言模型（LLMs），如GPT-4、Claude-3和Gemini的快

阅读更多...

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

论文翻译：ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中文章目录验证测试集污染在黑盒语言模型中摘要1 引言摘要大型语言模型是在大量互联网数据上训练的，这引发了人们的担忧和猜测，即它们可能已

阅读更多...

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

陈科肇 ============= 1.主要模型在UML系统开发中有三个主要的模型：功能模型：从用户的角度展示系统的功能，包括用例图。对象模型：采用对象、属性、操作、关联等概念展示系统的结构和基础，包括类图、对象图、包图。动态模型：展现系统的内部行为。包括序列图、活动图、状态图。因为要创建个人空间项目并不是一个很大的项目，我这里只须关注两种图的创建就可以了，而在开始创建UML图

阅读更多...

速通GPT-3：Language Models are Few-Shot Learners全文解读

速通GPT-3：Language Models are Few-Shot Learners全文解读

文章目录论文实验总览1. 任务设置与测试策略2. 任务类别3. 关键实验结果4. 数据污染与实验局限性5. 总结与贡献 Abstract1. 概括2. 具体分析3. 摘要全文翻译4. 为什么不需要梯度更新或微调⭐ Introduction1. 概括2. 具体分析3. 进一步分析 Approach1. 概括2. 具体分析3. 进一步分析 Results1. 概括2. 具体分析2.1 语言模型

阅读更多...

context:component-scan使用说明！

context:component-scan使用说明！

<context:component-scan base-package="com.yuanls"/> 在xml配置了这个标签后，spring可以自动去扫描base-pack下面或者子包下面的java文件，如果扫描到有@Component @Controll

阅读更多...

React的context学习总结

React的context学习总结

context是干什么的？为什么会存在这么一个东西？ context字面意思是上下文，在react中存在是为了解决深层次组件传值困难的问题这里涉及到组件的传值问题，大体商说分三总：兄弟间传值（通过父组件），父往子传值（通过props），子往父传（props函数回调），这是基础的传值问题，但是如果组件嵌套的太深，那么传值就变的非常麻烦，为了解决这样的问题才产生了context 这是cont

阅读更多...

高精度打表-Factoring Large Numbers

高精度打表-Factoring Large Numbers

求斐波那契数，不打表的话会超时，打表的话普通的高精度开不出来那么大的数组，不如一个int存8位，特殊处理一下，具体看代码 #include<stdio.h>#include<string.h>#define MAX_SIZE 5005#define LEN 150#define to 100000000/*一个int存8位*/int num[MAX_SIZE][LEN];void

阅读更多...

兔子--The method setLatestEventInfo(Context, CharSequence, CharSequence, PendingIntent) from the type

兔子--The method setLatestEventInfo(Context, CharSequence, CharSequence, PendingIntent) from the type

notification.setLatestEventInfo(context, title, message, pendingIntent); 不建议使用低于API Level 11版本，也就是Android 2.3.3以下的系统中，setLatestEventInfo()函数是唯一的实现方法。 Intent intent = new Intent(

阅读更多...

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

[论文笔记]Making Large Language Models A Better Foundation For Dense Retrieval

引言今天带来北京智源研究院(BAAI)团队带来的一篇关于如何微调LLM变成密集检索器的论文笔记——Making Large Language Models A Better Foundation For Dense Retrieval。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。密集检索需要学习具有区分性的文本嵌入，以表示查询和文档之间的语义关系。考虑到大语言模

阅读更多...

ModuleNotFoundError: No module named ‘diffusers.models.dual_transformer_2d‘解决方法

ModuleNotFoundError: No module named ‘diffusers.models.dual_transformer_2d‘解决方法

Python应用运行报错，部分错误信息如下： Traceback (most recent call last): File “\pipelines_ootd\unet_vton_2d_blocks.py”, line 29, in from diffusers.models.dual_transformer_2d import DualTransformer2DModel ModuleNotF

阅读更多...