Offline：IQL

2024-05-08 02:44

文章标签 offline iql

本文主要是介绍Offline：IQL，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

ICLR 2022 Poster

Intro

部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作，这就容易导致采取了OOD的数据。因此，IQL取消max,，通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。

method

期望回归(Expectile Regression)

$\arg\min_{m_\tau}\mathbb{E}_{x\sim X}[L_2^\tau(x-m_\tau)],$
其中 $L_2^\tau(u)=|\tau-\mathbb{1}(u<0)|u^2.$ 函数如下所示
在这里插入图片描述
最右边的图可以看出，越大的 $\tau$ 使得预测值逼近上界。

IQL

IQL将上述的 $L_2^{\tau}$ 替换掉MSE来优化Q
$L(\theta)=\mathbb{E}_{(s,a,s',a')\sim\mathcal{D}}[L_2^\tau(r(s,a)+\gamma Q_{\hat{\theta}}(s',a')-Q_\theta(s,a))].$
然而上式存在一个问题。 $Q_{\hat{\theta}}$ 中采样的下一个动作具有一定的随机性，即使由较大的target Q也无法代表这是一个最优动作。因此这里来利用状态价值函数去并逼近这个Q:
$L_V(\psi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[L_2^\tau(Q_{\hat{\theta}}(s,a)-V_\psi(s))].$
采用均值就有效增加鲁棒性。而得到 V 后将通过MSE来优化Q网络：
$L_Q(\theta)=\mathbb{E}_{(s,a,s')\sim\mathcal{D}}[(r(s,a)+\gamma V_\psi(s')-Q_\theta(s,a))^2].$