openreview专题

Openreview IClR2024审稿意见以及如何rebuttal

R1 为什么直接从其他剧集获取信息可以提高性能,尽管动态可能会有所不同。 请与其他一些数据增强基线进行比较。 R2  问题: 批评者和价值差异d(s,a,s',a')似乎是在IM中共同学习的。为什么这是一个有意义的目标?与其他带有类比推理模块的方法相比,该方法的表现如何?该方法如何在其他任务上执行?例如,其他 Mujoco 任务,如 Walker2d、Hopper 和 Humanoi