paddle2专题

使用paddle2的DQN跑Mountain

1.Agent Agent就是一个接口，sample就是实现了一个随机探索，本质还是用的self.alg.predict（）函数然后Agent.learn(self, obs, act, reward, next_obs, terminal)就是将从环境拿到的obs, act, reward, next_obs, terminal转化为tensor形式，然后送给算法中的learn，即self.