均方误差(Mean Squared Error, MSE)与交叉熵(Cross-Entropy)的数学原理 1. 均方误差(Mean Squared Error, MSE) 均方误差主要用于回归问题,度量预测值与实际值之间的平均平方差。其数学公式为: MSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{n} \sum_{i
目录 一.policy gradient 的基本思路(Basic idea of policy gradient) 二.定义最优策略的 metrics,也就是 objective function 是什么 三.objective function 的 gradient 四.梯度上升算法(REINFORCE) 五.总结 上节课介绍了 value function approxim