一年前 LLM AGI 碎片化思考与回顾系列⑤ · 探索SystemⅡ复杂推理的未知之境

本文主要是介绍一年前 LLM AGI 碎片化思考与回顾系列⑤ · 探索SystemⅡ复杂推理的未知之境，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

阅读提示：

本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成，在内容上，与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想，探寻世界模型以迈向AGI」间有着非常紧密的联系，可以说，这篇长篇文章中的很多内容也是基于这些碎片化的思考与沉淀，当然也正是这样的一个个碎片化的、看似玄幻大胆、step by step的探索过程，才促成我最终完成那篇看上去并不是特别易读的文章。
因此，这个系列文章将以笔记的形式，去重新回顾体会一下自己去年的这些碎片化思考与探索历程，并希望将这些碎片化的、step by step探索式的思考与历程分享给大伙。一方面去回顾、修正自己之前的思考和观点，一方面作为那篇长文阅读的补充参考，并在其中的内容中标注出与其相关的阅读指针与提示。
在内容记录形式上，因为一年前自己的思考历程按时间顺序记录呈现出一定的主题割裂与内容的碎片化，我将按照时间线顺序向大家呈现一年前自己的想法，内容上可能进行一些合并和整合但会尽量保持原文内容不变。
另外大伙需特别注意的是，因为保持了原始记录时内容的不变（仅修改笔记上的笔误与错字），一年前的想法跟当前的认知可能会有较大的差异和改变，也会存在一些不成熟观点，千万不要被我当时片面的观点所误导。主要是想给大家抛出一些过去技术进展当中存在的一些问题和关键点，当然坦率地说，自己确实也在回顾中针对某些想法有了新的思路！如果大家针对我过去或刚完稿的那篇文章有更有建设性的意见甚至批评指正那就更好了！
最后，为了不让这个系列笔记显得不那么单调，在每一篇内容中会附上一些过去自己经历的有趣的生活照片或的图片，有吃喝玩乐，有学术美图，也有搞笑娱乐。

「2023/06/11 · 探索System2复杂推理的未知之境」

背景提要 ↓

前几日在这篇回忆内容回顾和整理的时候，正好赶上了今年的高考，在大的时代发展背景之下，「人工智能」、「未知之境」空间探索等这个时代别具特色的创新技术快速发展作为本次部分语文考卷的作文题目，非常巧的是，这些题目又与自己近期针对AGI领域诸多问题的回顾与探索又是那么的相关，因此这次的笔记内容也稍微蹭一下“高考”的热点，选择新课标二卷的“未知之境”这一题目，结合近期系列笔记的思考与回顾，展开过去自己曾经对未知之境探索的回顾。

回到一年前，基于上一篇“慢思考下的暴力美学”仍然存在于心中的一些疑惑并尝试窥见触发到的一些碎片化灵感，本篇笔记将顺着system1与system2的一些本质问题继续通过慢思考的探索模式来尝试进行从上一期思维的扩散到归纳，并期待在其中过滤并把握住一些本质上的洞察。同时，大家可以结合本次记录和思考的内容，去翻阅那篇「融合RL与LLM思想，探寻世界模型以迈向AGI」文章的中篇第一小节「system2·慢思考本质阐释」，我想将会有一些不一样的体会吧，这也是这个系列分享目的之一。

记录正文 ↓

前天针对整个E2E的system2涉及的方方面面进行了一些“慢思考”的大胆猜想与尝试，对于复杂的长链推理而言，其复杂性不光涉及某一单一领域，而是可能覆盖了认知科学、数学、信息学、博弈、拓扑学等，甚至需要在某处上升到以哲学的视角来进行审视，当然未来可能也会通过对这一主题的研究诞生某一新的子学科也不一定。然而，造成这样一种局面的原因我想一方面来源于这一问题本身的复杂性，另一面可能也层面印证了我们当前对于这一领域理论基础认识的薄弱与探索的局限性。

也许在整个人工智能的探索路途中，当前只是迈出了一小步甚至只是打开了一扇窗，未来将任道重远，这个周末终于能在繁忙的工作之余，再次找到一个时间能静下心来思考这一当下未知之境：

① 对于一个system2认知推理过程中的思维概念链（当然这种思维链过程包含了整个思维过程中的前“因”后“果”和中间的推理步骤所涉及的诸多概念）与step by step表征并承载这种长链推理概念的认知模型中的动态传播形式感觉可与类比于群论中态射这种结构性映射（比如对于神经网络模型来说，其中间的神经网络层表征了真实世界推理过程中的诸多复杂结构性概念，前向传播过程表征了逻辑推理这一动态过程中的概念层级间的结构性变化）。

因此，对于一个基于system2的e2e LLM来说，其模型在最终生成的内容（token）前，模型网络中的前向传播（神经元信号激活传递）中蕴含着概念知识的复杂推理逻辑。

在训练过程中，如考虑增加过程学习，在反向传播的过程中，模型直觉上应该能够更好的学习这种推理模式。因此针对多样化的推理步骤，llm可以通过某种过程学习模式实现得到更贴近于真实概念优化目标的模型参数，比如以COT和TOT为代表的多步骤推理、子任务规划、反思、过程中引入知识增强模块等环节，这些本质上等同的思维模式，也许都可以通过SFT或最终的RLHF机训练机制（当然还有其他更适合的训练机制如某种RL）将上述复杂且多样化的推理模式或概念映射通过反向梯度传播进行模型参数更新。表面上来看，使得模型本身除了学习到了浅层知识外，还具备深层次的内涵抽象与深度推理模式（推理模式本身也是一种知识）。我想做到这一步才能说AI模型向人类认知又迈出了关键一步吧。当然这种模式是否也可以形成强AI的一条路径呢？

② 回顾前不久OpenAI联合创始人的报告，不管针对COT还是TOT这种多步骤思维链或树形决策思维链，又或者是autogpt这些融合了*OT模式的推理框架，在其报告中都没有体现出对这种E2E system2模式（非多步骤agent推理）的可能性说明和前瞻性展望，不知是出于什么原因...是保密？还是套路？…不得而知...这里其实是有点担心自己别跑偏了..

基于上述本质问题的思考，可能会对当前system1或以chatGPT为代表的llm的sft和rlhf范式带来较大的影响或畅想空间，甚至可能要重新规划pre training阶段对数据整体的分布，以满足面向system2的E2E训练范式，就像之前在chatGPT正式问世前所出现的Prompt learning，in-context learning，instructGPT，SFT，RLHF等同的多种模型learning范式。

同时，回归本质的尝试性思考：只要模型参数容量足够大、算力与数据准备的足够充分、训练范式足够完备，本质上，模型是可以容纳编码并解析生成包括COT、TOT、Self-consistency、Knowlege-Enhance一切事物的，因为MLP is everything-MLP可通过万能逼近能力去拟合多样化复杂的模式，即也意味着：可以对诸如COT、TOT、Self-consistency、Knowlege-Enhance这些抽象的中间推理与思维概念和最终的推理结果进行形式化符号表达和向量化表征，同时通过llm tokenize的next token predict 自回归生成模式，对于模型来说：既然生成了，就意味着经历了思考了，即在模型中进行多层神经元参数激活与信号传播了。

「本篇配图」

本次笔记的配图选择决定附上一道扬州的传统美食「扬州炒饭」，因为正好赶上本周在扬州出差，这是我时隔五年第二次来到扬州于当地品尝这道美食。

记得从小到大，就对家里长辈们做的普通鸡蛋炒饭情有独钟，如今又一次带着这种炒饭情节满怀期待的在扬州当地点上一份“豪华”版扬州炒饭，预期之高可想而知...果不其然，感觉这次并没有第一次那么的惊艳，也有可能是前菜吃的太过丰富，失去了一定的饥饿感所带来的吞咽满足欲。

但不管怎样，还是对炒饭这种烹饪手法和食材的混合充满好感。而这次之所以选择扬州炒饭，主要是因为这道美食从食材的选择到烹饪的手法也与这次笔记的所记录的内容有一定的相关性：比如对于所涉食材的多样性隐喻了对于system2这一认知推理所涉及的多学科与多种思想方法的交叉和融合，其烹饪过程与手法又与e2e的这种夹杂着繁琐步骤的一气呵成存在着些许相同。