本文主要是介绍Can large language models explore in-context?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Can large language models explore in-context?
相关链接:arXiv
关键字:Large Language Models、Exploration、Reinforcement Learning、Decision Making、In-context Learning
摘要
本文研究了当代大型语言模型(LLMs)在无需训练干预的情况下,能否在上下文中进行探索,这是强化学习和决策制定中的一个核心能力。我们专注于现有LLMs的原生性能,通过在简单的多臂老虎机环境中部署LLMs作为代理,并完全在上下文中指定环境描述和交互历史。我们使用GPT-3.5、GPT-4和Llama2进行实验,发现除了一种配置外,其他配置都无法稳健地进行探索行为:GPT-4结合链式思维推理和外部总结的交互历史,呈现为充分统计信息。我们的结论是,非平凡的算法干预,如微调或数据集策划,可能需要赋予基于LLM的决策制定代理在复杂环境中更复杂的探索能力。
核心方法
研究的核心方法是通过在多臂老虎机(MAB)环境中部署LLMs作为决策代理,并在LLM提示中完全指定环境描述和交互历史。具体步骤包括:
- 环境描述:为LLM提供MAB问题的场景描述,包括时间范围T。
- 交互历史:提供与LLM的交互历史,可以是原始列表或总结的形式。
- 请求答案:要求LLM提供一个或多个臂(动作)的选择,可能包括链式思维(CoT)解释。
- 探索与利用:评估LLM在探索(尝试不同臂以收集信息)与利用(选择已知最佳臂)之间的行为。
实验说明
实验结果数据展示了不同LLM配置在多臂老虎机问题上的表现,特别是在探索行为上的成功与否。实验使用了GPT-3.5、GPT-4和Llama2模型,并考虑了不同的提示设计。实验的主要发现是,除了GPT-4的一个特定配置外,其他配置都未能展现出稳健的探索行为。以下是部分实验结果的总结表格:
模型/配置 | 探索失败类型 | 探索成功配置 |
---|---|---|
GPT-3.5 | 普遍 | 无 |
GPT-4 | 普遍,但有例外 | BSSC0 |
Llama2 | 普遍 | 无 |
结论
当前的LLMs在简单的RL环境中可能通过适当的提示工程进行探索,但在更复杂的环境中可能需要训练干预来赋予LLMs更复杂的探索能力。我们的研究结果表明,除了GPT-4的一个特定配置外,其他配置都无法稳健地进行探索。这表明在更复杂的决策制定环境中,可能需要进一步的算法设计和训练干预。
这篇关于Can large language models explore in-context?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!