DQN 更新方程 Q θ ( s t , a t ) ← Q θ ( s t , a t ) + α ( r t + γ max a ′ Q θ ( s t + 1 , a ′ ) − Q θ ( s t , a t ) ) Q_\theta(s_t,a_t) \leftarrow Q_\theta(s_t,a_t) + \alpha \left( r_t + \gamma \r
与DNQ相比,使用优势函数(A函数)和状态价值函数(V)代替之前的Q(动作价值)函数, 最核心公式为 Q ∗ ( s , a ) = A ∗ ( s , a ) + V ∗ ( s ) − max a A ∗ ( s , a ) Q^*(s,a)=A^*(s,a)+V^*(s)-\max_a A^*(s,a) Q∗(s,a)=A∗(s,a)+V∗(s)−maxaA∗(s,a)。 核心公式演
P r o b l e m l i n k Problem~link Problem link 分析: 以 n n n为起点 跑两次 s p f a spfa spfa 记录两个 G P S GPS GPS的最短路径 最后再做一遍 s p f a spfa spfa 对于统计不在最短路上 可以先建边权为 2 2 2的图 跑最短路 遇到相同的 − 1 -1 −1即可 CODE: #i