rank16专题

朝着抵抗力最大的路径走-Rank16-强化学习、黑盒攻击、Baseline-SecurityAI

写在最前面的话 朝着抵抗力最大的路径走 我也不是RL的专家,但我认为GAN是使用RL来解决生成建模问题的一种方式。GAN的不同之处在于,奖励函数对行为是完全已知和可微分的,奖励是非固定的,以及奖励是agent的策略的一个函数。但我认为GAN基本上可以说就是RL。 Ian Goodfellow(生成对抗网络之父) 基于上述原则,成绩不重要,我们进行了以下工作。 一、强化学习 在