conservative专题

（CQL）Conservative Q-Learning for Offline Reinforcement Learning

Abstract \qquad 在大规模、现实世界应用中，强化学习如何有效利用庞大的、历史收集的 datasets 是一个关键挑战。 O f f l i n e R L Offline\; RL OfflineRL 算法旨在利用 p r e v i o u s l y − c o l l e c t e d previously-collected previously−collected