iql专题

Offline：IQL

ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作，这就容易导致采取了OOD的数据。因此，IQL取消max,，通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。 method 期望回归(Expectile Regression) a