给定当前优化的大模型 π \pi π,以及SFT模型 π S F T \pi_{SFT} πSFT 原始优化目标为: max E ( s , a ) ∼ R L [ π ( s , a ) π S F T ( s , a ) A π S F T ( s , a ) ] \max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(s,a)}A^{\pi_
一、深度强化学习理论基础 1.1 马尔可夫决策过程 强化学习中,智能体(强化学习中独立的能够思想并可以同环境交互的实体)和环境一直在交互。在智能体和环境交互的过程中会产生一个序列: S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , ⋯ S_0,A_0,R_1,S_1,A_1,R_2,\cdots S0,A0,R1,S1,A1,R2,⋯,其中, S S S 为状