openreview专题

Openreview IClR2024审稿意见以及如何rebuttal

R1 为什么直接从其他剧集获取信息可以提高性能，尽管动态可能会有所不同。请与其他一些数据增强基线进行比较。 R2 问题：批评者和价值差异d（s，a，s'，a'）似乎是在IM中共同学习的。为什么这是一个有意义的目标？与其他带有类比推理模块的方法相比，该方法的表现如何？该方法如何在其他任务上执行？例如，其他 Mujoco 任务，如 Walker2d、Hopper 和 Humanoi