paddle2专题

使用paddle2的DQN跑Mountain

1.Agent Agent就是一个接口,sample就是实现了一个随机探索,本质还是用的self.alg.predict()函数 然后Agent.learn(self, obs, act, reward, next_obs, terminal)就是将从环境拿到的obs, act, reward, next_obs, terminal转化为tensor形式,然后送给算法中的learn,即self.