首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
iql专题
Offline:IQL
ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作,这就容易导致采取了OOD的数据。因此,IQL取消max,,通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。 method 期望回归(Expectile Regression) a
阅读更多...