2024年1月18日Arxiv最热NLP大模型论文：Large Language Models Are Neurosymbolic Reasoners

本文主要是介绍2024年1月18日Arxiv最热NLP大模型论文：Large Language Models Are Neurosymbolic Reasoners，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

大语言模型化身符号逻辑大师，AAAI 2024见证文本游戏新纪元

引言：文本游戏中的符号推理挑战

在人工智能的众多应用场景中，符号推理能力的重要性不言而喻。符号推理涉及对符号和逻辑规则的理解与应用，这对于处理现实世界中的符号性质问题至关重要。本文探讨了大型语言模型（LLMs）在符号推理中的潜在应用，特别是在文本游戏这一具有挑战性的领域。文本游戏是测试自然语言能力的重要基准，尤其是在数学、地图阅读、排序以及应用常识等符号任务中。我们提出了一种设计用于应对符号挑战并实现游戏目标的LLM代理。通过初始化LLM代理并告知其角色，代理接收来自文本游戏的观察结果和一组有效动作，以及特定的符号模块。有了这些输入，LLM代理选择一个动作并与游戏环境互动。我们的实验结果表明，我们的方法显著提高了LLM作为自动化符号推理代理的能力，在涉及符号任务的文本游戏中，我们的LLM代理的平均表现达到了88%。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）

论文标题、机构、论文链接

论文标题：

Large Language Models Are Neurosymbolic Reasoners

机构：

University of Liverpool, United Kingdom; Eindhoven University of Technology, Netherlands; University of Technology Sydney, Australia; University College London, United Kingdom

论文链接：
https://arxiv.org/pdf/2401.09334.pdf

大语言模型（LLMs）作为符号推理器的潜力探索

1. 文本游戏作为自然语言能力的重要基准

文本游戏已成为评估自然语言处理能力的重要基准，尤其是在需要数学、地图阅读、排序和应用常识等符号任务的文本世界中。这些游戏要求代理（agent）使用语言来解释各种情境并做出决策。文本游戏的复杂性源于对语言理解、常识、管理具有组合复杂性的动作空间以及长期记忆和规划的重要性。例如，代理可能需要解决数学问题的同时收集特定数量的水果，所需数量即为数学问题的答案。

2. 符号模块在文本游戏中的关键作用

在复杂的文本游戏中，使用符号模块或外部工具进行算术、导航、排序和知识库查找对于语言代理尤为关键。这些符号模块在游戏中的作用不可或缺，例如，当代理面对数学问题时，可以利用计算器这样的外部工具来解决问题。符号模块在其功能上非常熟练，使用这些工具本身就被视为一个动作。

LLM智能体的设计与初始化

1. 角色初始化与任务描述

我们提出了一个LLM代理，它被设计为在零样本（zero-shot）方式下，通过外部符号模块来执行文本游戏中的符号任务。在游戏开始时，我们通过初始化提示来告知LLM代理其角色，并提供任务描述和一系列有效动作。这些动作对于与文本游戏环境互动或调用符号模块是必要的。代理被指示从有效动作集中选择动作，例如阅读地图、获取特定位置的路径和回忆任务。此外，代理被建议利用外部符号模块，并在任务执行过程中避免不必要的动作。

2. 有效动作集的构建与提示机制

在每个时间步骤，我们通过当前观察、库存状态、有效动作集和问题提示LLM代理。库存状态描述了代理在环境中获得的物品，例如在数学任务中可能包括一个数学问题，在MapReader任务中可能包括一张地图。LLM代理的任务是从有效动作集中选择一个动作以继续任务。值得注意的是，LLM代理不允许拒绝或提供任何超出规定响应的文本。我们还限制了符号模块提供的有效动作数量。

此外，开发适当的提示以根据表3中提供的信息有效限制代理的动作至关重要。代理无法仅通过与环境的互动来获取知识并推断出规则。在所有任务中，通常有一个特定的事件顺序，即首先获取对象，然后将其放置在指定位置。这种策略是为了防止在获取对象之前就将其放置的情况发生，这在给定的上下文中将被视为不可接受。

符号模块的应用与作用

1. 计算模块、排序模块、知识库模块和导航模块

在文本游戏中，符号模块是提升大型语言模型（LLMs）推理能力的关键工具。这些模块包括计算模块、排序模块、知识库模块和导航模块，它们各自针对特定的符号任务而设计。例如，计算模块能够执行基本的数学运算，排序模块能够根据数量对物品进行排序，知识库模块能够查询与常识相关的信息，而导航模块则能够提供地理位置信息和路径规划。

在一个具体的游戏场景中，LLM智能体可能需要解决一个数学问题，并根据答案收集特定数量的水果。在这种情况下，智能体可以利用计算模块来解决数学问题，并据此决定接下来的动作。这些符号模块不仅提供了游戏状态的当前观察结果，还允许智能体通过选择适当的动作与游戏环境或符号模块进行交互。

2. 符号模块与LLM智能体的交互流程

LLM智能体与符号模块的交互流程涉及多个阶段。首先，智能体通过角色初始化提示得知其角色和任务描述，并了解可采取的动作及其限制。在接收到来自文本游戏环境的观察结果后，智能体需要利用其符号推理能力从有效动作列表中选择一个动作。如果所选动作涉及符号模块，则该模块将提供下一个观察结果；否则，文本游戏环境将提供后续的观察结果。

智能体在每个时间步骤都会收到当前的游戏状态信息，包括玩家的观察结果、库存状态、有效动作集合以及奖励。智能体必须从有效动作集合中选择一个动作来继续任务，并且不允许拒绝或提供超出预定响应的文本。此外，通过限制智能体的动作，可以有效地引导其根据提供的信息进行合理的动作选择。

实验设置与评估框架

1. 文本游戏环境与任务描述

实验中使用的文本游戏环境可以被形式化为部分可观察的马尔可夫决策过程（POMDPs）。游戏包括四种不同的符号任务：算术、地图阅读、排序和文本世界常识（TWC）。每个任务都配备了相应的符号模块，以帮助智能体成功完成任务。

2. 使用GPT-3.5-turbo的LLM智能体

在实验中，我们使用了GPT-3.5-turbo作为LLM智能体，它可以与游戏环境和符号模块进行交互。智能体的任务描述和符号模块的调用示例在文中提供。评估包括四种涉及符号任务的文本游戏，每个任务都分为“训练”、“开发”和“测试”集合。所有评估都在“测试”集上进行。

评估指标基于两个因素：游戏结束时获得的平均分数，以及单个游戏中所采取的平均步骤数。实验结果表明，LLM智能体在执行符号推理任务方面表现出色，平均性能达到88%。此外，与其他基线模型相比，LLM智能体在使用符号模块时表现出更好的平均准确率。

实验结果与分析

1. LLM智能体与基线模型的性能比较

在我们的实验中，LLM智能体与两个基线模型——深度强化相关网络（DRRN）和基于T5的行为克隆变换器（Behavior Cloned Transformer）进行了比较。DRRN模型基于Q学习的概念，选择预期Q值最高的候选动作作为下一步动作，而行为克隆变换器采用模仿学习方法，将强化学习视为序列到序列的问题，预测基于一系列先前观察到的动作序列的后续动作。

实验结果显示，当LLM智能体结合符号模块使用时，其平均性能优于其他基线方法。尽管与具有符号模块的行为克隆变换器相比，LLM智能体的性能略低，但它在与游戏环境交互方面表现出了相似的能力。此外，与行为克隆变换器模型不同，LLM智能体不需要大量专家数据的广泛训练，因此节省了大量的训练资源。

2. 约束提示对性能的影响

我们进一步探讨了约束提示对LLM智能体性能的影响。通过对比使用和不使用约束提示的模型性能，我们发现当LLM智能体使用表3中概述的约束提示时，其在所有任务中的性能都有所提高。此外，与游戏环境交互所需的平均步数也有所减少。这表明我们的约束提示在这些任务中是有效的。实验结果还显示，使用GPT-4的LLM智能体在“测试”集上的表现也得到了验证。

讨论：LLM智能体的推理能力与外部模块的整合

我们的研究结果表明，通过整合外部符号模块，LLM智能体能够提高平均准确率，并超越其他基线。这种能力是通过利用训练数据中存在的底层模式来实现的。与依赖符号思维或显式规则不同，这种方法通过识别模式和关联来获取知识，这些模式和关联来自于它在训练阶段接触的大量文本语料库，如GPT-3.5和GPT-4所示。尽管LLM智能体能够连接到特定任务的符号模块，但它仍然存在不确定性，并且容易犯错。

我们的研究证明了LLM在复杂的基于文本的游戏中涉及符号任务的有效应用。通过使用提示方法，我们指导LLM智能体在这些游戏中有效地与符号模块交互。我们的方法利用LLM显示出比其他基准更优越的性能，突出了LLM在提高基于文本游戏训练程序方面的潜力。因此，可以认为大型语言模型可以被视为具有执行符号推理的重要潜力的神经符号推理器。

未来的工作需要将模型的应用扩展到更复杂的领域，超越简单的基于文本的游戏。为了应对多样化场景的复杂性，整合更复杂的符号模块将是必要的，从而促进更有效的问题解决方法。

结论与未来展望

1. LLM在文本游戏中的应用与挑战

在本文中，我们探讨了大型语言模型（LLM）在文本游戏中作为符号推理者的潜力。通过实验，我们的LLM代理在执行包含符号任务的文本游戏中表现出色，平均性能达到了88%。这些游戏被形式化定义为部分可观察的马尔可夫决策过程（POMDPs），其中代理必须处理符号模块生成的有效动作集，以及游戏环境本身的动作集。LLM代理通过提示机制，结合外部符号模块，有效地选择并执行动作，展现了其作为神经符号推理者的潜力。

尽管LLM在文本游戏中的应用取得了一定的成功，但仍存在挑战。例如，LLM代理在与符号模块的交互中仍然表现出不确定性，并可能犯错。此外，代理在理解游戏环境的底层规则方面也存在困难，需要通过精心设计的提示来引导其行动。这些挑战表明，尽管LLM在符号推理任务中具有潜力，但要实现更高的准确性和可靠性，仍需进一步的研究和开发。